Qzone

微博

微信

今日头条搞了条“灵犬”，实验发现这条狗嗅觉还真灵敏

资讯 Tom 2018-04-02 11:41

3月28日，今日头条上线了国内首款人工智能反低俗小程序——灵犬。用户输入一段文字或文章链接，小程序就可以返回一个分数，表示内容的健康程度。

人工智能，虽然已经发展了很多年，但“聪明程度”也就差强人意。号称使用了国内最强算法，今日头条这只“灵犬”到底灵不灵呢？

初测：我喂了10篇爆文给“灵犬”

今日头条方面表示，“灵犬”背后是一套反低俗模型，是头条审核机制中反低俗部分的简化版本。“灵犬”会对样本进行提取、分词和语义识别，然后根据相应的算法，输出分数、评级和结论。

样本1：离离原上草，一岁一枯荣

样本2：狼牙月，伊人憔悴我举杯

样本3：老司机带带我，我要进省城

根据榜妹多次测试，“灵犬”会返回三个结论：可以获得算法推荐，需要引入人工判断，不应获得算法推荐。准确门槛不敢说，以现有几十个样本估计，大致分界线约为70和50。

值得注意的是，检测结果分“健康概率”和“质量指数”两部分。我们通常说的“分数”其实是前者，因为后者只是一个直观的五星评分。

换句话说，分数低不代表内容更低俗，只代表内容低俗的可能性更大。两者有本质上的区别。不过，正如人们心理上会把1米8的身高和180斤的体重对等，即便单位、维度不同，人们也倾向于认为，“灵犬”反馈的概率分就代表了低俗程度。

为了减少样本的随机性，榜妹抛弃了自己关注的500个公众号，特地从2017年约50篇10w+点赞文章中，选取了10篇可能触发关键词的标题。

10w+点赞，意味着文章阅读数至少在500万甚至千万以上。这样广泛传播的文章，更有参考价值，也更值得关注。

有些出乎意料，中国人并没有想象中低俗。或者说，微信公众号的信息环境还没有那么恶劣。10篇爆文中，6篇文章分数都超过了80，属于可被算法推荐的一类。

不低俗就ok了吗？你会发现诸如“惊！恐！……媒体竟如此反应”、“国运果然降临”、“XX怒了，XX怒了……”这类，实打实的标题党，放到今日头条上，也未必获得推荐。

不过，“灵犬”毕竟是一个测低俗的小程序，正如它自己辩白，“你很难用温度计去测一杯水的深度”，低俗和标题党之间，没有直接关联。

三篇文章没有分数，需要人工审核。这里的“需要人工审核”，并非上文提到的“需要人工判断”。

“需要人工审核”是说这只狗根本判断不了，因为涉及时政、社会等复杂因素，完全给不了分；“需要人工判断”是说这只狗能判断，但是判不准，需要人的协助，往往是五六十分还能续一秒的争议性内容。

以上就是“灵犬”初测。你需要明白三点：分数本身不反映低俗程度；标题党不等于低俗；时政性内容无法识别。

深究：这只狗到底吃哪一套？

弄清楚“灵犬”的功能后，再来针对“提取、分词和语义识别”，拆（cai）解（ce）下这个算法模型。

关键词是一个重要标准。以上10篇文章中，唯一一个低分带有“男人”字眼，不妨猜测“男”、“女”、“性”是降权标准之一。那么我们以“女人”这个词为例，看下这只狗的识别能力究竟如何。

以下表格中的标题，前两个是今日头条上随机找的，标题都带有“女人”字眼。后面几个是在微信公众号里搜的，有的标题同时出现“男人”和“女人”，理论上讲可能更“低俗”。

我把这8个标题分成3组，用颜色进行了区分。经过大胆猜测、细心求证，至少能得到以下几个结论：

1、样本环境会影响准确度，这套算法可能更适合今日头条。

前面题到，这个小程序，其实是今日头条反低俗算法的一个简化版本。也就是说，它对“低俗”的行为界定、采集的样本、建立的模型，都与今日头条这个产品相关。

有人觉得用“男”、“女”、“性”等关键词来界定低俗，过于机械。但事实上，今日头条上使用这些词的，也大多不干净。比如上述的两个标题“十大美女”……“范冰冰……”，内容本来就是女性的香艳照和视频，不予推荐很正常。

只能说，今日头条在自己的领土抓人，还是一逮一个准。

2、关键词相同的情况下，语义越复杂，得分可能越高。

再来看第二部分。三个标题都同时含有“男人”和“女人”，分数从低到高。但实际上，就像前文所说，分数不直接反映低俗程度，这三篇文章并不是一个比一个低俗的关系。事实上，点开内文你会发现，它们都不低俗。

（为方便阅读，重复插图）

如果按关键词划分，三者都存在可能触发低俗模型的“黄暴词语”，比如“养得起”、“骗”、“家暴”。可见这不是影响分数的关键。

这里大胆猜测，语义复杂程度是一个影响因素。这只狗没那么聪明，对于不常见的语境，它倾向于相信并返回较高分数。毕竟做号党都很直接，看一眼就懂的段子，更容易获得点击量。相反，只有相对高级的情感号，才会挖空心思弄点新概念或金句。

3、“灵犬”满脑子情情爱爱，只认语义，不认领域。

最后，蓝色部分，全都是科技号。打头的一个就是“量子程序”推送的文章，单纯介绍一个整蛊小程序，结果因为标题含有“女友”，只得了81分。

后面两个更“冤枉”，都是圈内有名的高逼格大号。“好奇心日报”这篇，讲的是“去性别化时尚”，说白了，就是推荐一些男女通用的服装；“果壳网”这篇，其实也就标题刺激，全文都在讲一个研究报告，涉及社会学、人类学，以及统计学若干知识。

结果？哈哈，果壳网这篇，无论是标题检测，还是文章链接监测，全都只有可怜的7分。

“灵犬”之前自己说了，“驿外断桥边，寂寞开无主”这句诗的健康概率很低，因为这条蠢狗不懂诗词，觉得“寂寞”有低俗嫌疑。以此类推，碰到科技类文章，这狗必定歇菜啊。

4、“灵犬”能理解“高级词汇”，标点符号也会影响分数。

关键词屏蔽，非常基础且低级。中国文字博大精深，“灵犬”能否识别内涵段子？头条有反低俗机制，做号党也不傻，绕开关键词，把汉字进行排列组合，一样能起暗示作用。

榜妹搜集了很多这类标题，但是为了不污染大家眼睛，不教坏小孩子，就不一一举出来了。这里随便杜撰一个标题《不可描述，老司机快上车》。“灵犬”果然看出来了，分数都在20以下。

一个有意思的发现是，我调整了两个标点符号，打分也有细微差别。上图左边一列，第二个标点从“！”到“。”到空白，感情由强到弱，分数也由低到高。

右边一列，把第一个标点统一由“，”变成“！”，第二个标点与左边保持一致。按照“感情越强烈，分数越低”的原则，应该所有分数统一下降几分，自上而下总体差值不变。结果？全部乱了，看不出规律。

最后：来自一个训狗师的建议

以上，只是榜妹随机检测后，写下的几点发现。不完全，甚至是错的。不猜测算法，单从产品机制上看，“灵犬”也有bug。以下是几点反馈建议：

1、服务器不稳定，文章链接测试经常崩溃。

虽然规定可以检测文字内容或链接，但文章链接经常识别不出来。3月28日当天晚上，“今日头条”在微信公众号回复，因为同时涌入的“训狗师”太多，导致服务器崩溃，目前已经修复。可第二天，又挂了。

2、图片和视频测试不准确。

这一点，“灵犬”本身也有提示。以前天“营销新榜样”的推文《恭喜微商女王景总喜提奥运冠军！"KT表白体"了解一下？！》为例，这是一篇常规操作，发了很多品牌借势的海报。然而复制链接进去检测，健康概率只有3%。如果仅检测标题，能达到98%。初步猜测，图片太多、文字太少，干扰了狗的嗅觉。

3、算法经常变，可能在完善，也可能更糟。

还是上述景甜的稿子，3%的健康概率是3月29日检测所得。“灵犬”上线当天，实际检测结果仅为1%。时隔一天，多了两分。可见“灵犬”算法在不断调整，至于更好还是更遭，不好说。

4、反馈机制门槛太高，对算法改善意义不大。

如果用户感觉检测不准，可以在检测界面点击“反馈有奖”，输入测试内容、意见建议和联系邮箱。今日头条会根据反馈做升级和迭代。不觉得这种方式门槛太高了吗？不如直接设置类似“准”、“不准”，或者一个五星打分机制，测试结束自动弹出打分框。

尽管有这样那样的不足，“灵犬”的尝试依然值得鼓励。就像微信推出“辟谣助手”一样，今日头条的“反低俗助手”也在净化信息环境。这样的狗，可以多来几只。来源：量子程序王雅文

责任编辑： 3858NCY-BD

———— 分享到 ————