TOM首页 > 新闻 > 国内 > 最新 > 正文TOM新闻news.tom.com

江西光谷:快速过滤网络广告 大幅提高审核效率

来源:
  
时间:2017-07-04 13:53

在互联网高速发展的情况下,个人不再是互联网信息被动的接收者,而是作为互联网的编织者、使用者和传播者。更迭的交互方式虽然解决了内容产生的问题,但每天产生的海量内容中却也充斥着大量垃圾广告。这些垃圾广告没有任何排版和视觉设计(或者设计很粗劣),它们往往是单纯在其他图片上添加文字广告信息或者QQ、微信、二维码等联系方式,并且多以小广告、二维码和商业海报等形式出现在用户的视野中。如果不能及时清理掉这些广告,则会严重影响互联网产品的用户体验,给产品的运营带来巨大难度,甚至会严重到宣告社交项目的终结。而传统监控手段多以人工肉眼来审查,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。

日前,以提供图像内容审查服务著称的江西关谷推出了基于深度学习的在线OCR技术——广告图片文字识别,通过机器视觉的方式识别广告图片中的文字,从而鉴别出图片内的违规文案信息。进一步丰富了计算机视觉在图像内容审查方面的应用。

OCR(光学字符识别)是计算机视觉领域的经典问题,针对格式化文档图像的OCR,尤其是扫描文档,在理论与应用方面,都已经日趋成熟,国内也有很多传统的OCR软件提供商。据工程师介绍,不同于传统的面向扫描文档的OCR技术,江西光谷要处理的虚假推广图片和电商广告图片上的文字字体、色彩杂乱多样,文字布局不统一,背景包括各种商品、人物或自然场景,蕴含各种复杂纹理,给识别问题带来了更大的挑战。

为解决这一技术难题,江西光谷抛弃了传统的基于字符切割识别的算法框架,而是采用了深度学习识别引擎,将多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统。可识别图片上明显与广告相关的文字、电话、网址、水印、图标等内容,自动判断该内容是否属于广告并给出判断分值,分值越高,判断为该类别的概率越大,可以根据需求确定人工复审的界限。图片的返回结果将分为确定部分和不确定部分,对于确定部分,即判断为广告图片,准确度超过人工,无需再Review,而不确定部分可根据返回的参考值排序进行Review,从而大大降低工作量。全天24小时工作,速度高达5000张/分钟,每台机器一天可以审1000万张图片,是人工审核速度的1000倍。

借助这一领先的图片文字识别技术,江西光谷有效解决了识别图片中违规文字信息的问题,助力互联网企业快速过滤用户上传的小广告图片内容,保障互联网内容安全。

责任编辑:杨思思 TS002