蜜度发布人工智能前沿应用成果MiduCMR 实现多模态信息跨模态搜索

资讯 TOM 2022-06-27 18:01

6月27日，蜜度发布了人工智能前沿应用成果——跨模态检索引擎MiduCMR，在多模态信息检索领域取得重大突破。基于MiduCMR，蜜度索骥推出跨模态检索功能，实现视频、音频、图片、文本等不同模态信息在统一语义空间中的跨模态检索；蜜度版权通推出文本、图片、视频的版权保护与监测功能，实现多模态信息融合的一站式知识产权保护。目前，蜜度索骥、蜜度版权通产品可在蜜度官网中进行体验。

数字时代，数据智能已成为辅助决策的重要手段之一，社交媒体内容数据在社会治理、企业营销、媒体变革中发挥着重要作用。随着视频技术、网络技术、5G的发展，互联网信息正在从文字、图像向图片、音频、视频相互融合的多模态内容转变。但视频、音频、图片、文本信息搜索之间存在一定的壁垒，这些形态丰富、来源多样、数量巨大的多模态内容数据难以得到有效的分析和应用。例如视频、短视频通常是文字、图像、音频等多种形态的组合，而常用的内容提取和分析方法主要针对文字、图像的单个模态进行，难以在多类模态之间实现“跨越”。同时音视频在传播过程中容易产生裁剪、编辑等二次创作的情况，内容较为复杂，基于文本关键词的检索方法也存在信息发现不全面、侵权线索不容易发现、信息难以合并、追溯难度大等问题。

面对数字时代的新需求，上海蜜度信息技术有限公司自主研发推出跨模态检索引擎MiduCMR，为视频、音频、图片、文本等多模态内容的检索、分析、应用提供解决方案，帮助政企、媒体及创作者更好地面对全媒体多模态信息传播的新挑战。

跨越语义鸿沟多模态信息一键检索

MiduCMR突破传统的单一模态的信息检索方式，实现了跨模态信息的一键检索。引擎从微博、论坛、App、短视频等来源的多模态信息中，提取视频、音频、图片、文本内容并对其进行单模态理解和多模态融合，将海量全媒体信息映射到统一语义空间，跨越不同模态内容间的语义鸿沟，自动理解、关联多模态间的关键要素。

基于强大的跨模态检索能力，MiduCMR实现了以文本搜图片，以文本搜音视频，以图片搜文本，以图片搜图片，以图片搜视频，以音频搜文本，以音频搜视频等跨模态信息检索功能，快速呈现所需的多模态信息；并能够智能识别图片中的文字内容，准确解析视频中的字幕、背景、封面等特征元素，为深度数据分析提供基础。

多样化识别分析应用场景丰富

在跨模态检索的应用方向上，MiduCMR能为政企、媒体提供多样化的支持。目前，MiduCMR利用跨模态对比学习、语义融合、语义表征、语义检索等技术，实现了跨模态视频打标签、相似视频检索、场景识别等一系列解决方案。

针对政务应用场景，基于MiduCMR的蜜度索骥已支持约300个特殊场景的识别分析，有效提高政企、媒体等单位对视频等多模态内容发现、分析的准确度及应急反应速度，帮助用户及时发现公众需求、了解情绪变化、聆听建议心声、关注舆论动向、捕捉判别谣言，保护知识产权、打击假冒伪劣，为政府宣传、公安网安、社会治理、互联网内容安全的数字化升级工作提供支持。

针对知识产权应用场景，基于MiduCMR的蜜度版权通已经支持全网多场景中的版权保护，帮助企业、媒体、个人、律所、MCN机构、影视创作机构进行文本版权、图片版权、视频版权的监测、预警、追踪与智能取证。同时，蜜度版权通能够对商标侵权、产品设计与包装侵权、外观设计专利侵权等行为进行监测、预警、追踪与智能取证。

据悉，蜜度将基于MiduCMR推出更多的跨模态检索产品，以人工智能技术的应用突破，在公安、消防、教育、医疗、民生以及内容监管、品牌洞察、知识产权保护等领域提供丰富的数据智能应用与解决方案，为数字政府、数字营销、数字媒体、数字城市等场景助力赋能。