Qzone

微博

微信

云知声 AI 全栈能力再获突破！人脸识别技术达业界领先水平

资讯 TOM 2018-11-21 16:01

《经济学人》杂志称：许多硅谷公司以“全栈”（fullstack）而自豪。其原意指打造一套完整的、端到端的产品或服务体系。在人工智能领域，“全栈”的概念更多的被理解为在人工智能的多个应用领域（计算机视觉、语音、自然语言理解等多模态交互技术），具备提供业内一流的技术和服务的能力。

近日，云知声AI“全栈”能力再次取得重大突破——在国际权威的人脸识别标准评测数据库 LFW 和 MegaFace 上，云知声团队研发的人脸识别 UFaceID 算法系统，在上述两项标准评测中，性能分别达到 99.80%和 98.47%，首次参与内部测评，系统性能即位居业内前列。这两个测试集是业内公认的标准评测数据集，经常参与测试的还有阿里、腾讯优图、百度、搜狗、商汤、Face++ 等知名公司。该成绩不仅彰显了云知声在计算机视觉领域的技术实力，也意味着云知声多模态 AI 能力再一次获得拓展与验证。

LFW 和 MegaFace 均为人脸识别领域重要的评测数据集。前者是人脸识别研究领域最重要的人脸图像测评集合之一，后者为目前最具权威的、热门的评价人脸识别性能的数据集之一。LFW 是针对早期人脸验证任务提出评测方法与指标，结果有借鉴意义，但已不代表目前的最难问题。MegaFace 提出的关于百万级别的 1：N 人脸辨识任务的评测指标，难度更大，是目前学术界测评的新主流。尽管两个数据集都存在高分数与实际应用需求间的矛盾，但由评测过程中催生出来的新方法，无疑极大的推动了人脸识别技术的长足进步。

通常在计算机视觉评测中，为了跑出更好的成绩，参赛团队普遍会使用多模型和较高的模型复杂度，既考验模型算法的性能，也相应对计算资源提出更高要求。此次，云知声首次研发人脸识别算法即斩获出色成绩，除了团队算法研究人员的不懈努力之外，云知声分布式机器学习智能计算平台 —— Atlas 亦同样功不可没。

云知声很早就开始布局建设国内领先的 GPU/CPU 异构计算平台和分布式文件存储系统，该计算集群能够为智能计算提供高性能计算和海量数据的存储访问能力。在该计算集群的基础上，云知声建设了被誉为云知声版“TensorFlow + GKE (Google Kubernetes Engine) ”的 Atlas 机器学习计算平台，在云知声向人工智能多领域技术横向扩展和纵向迭代中，发挥了至关重要的作用。

Atlas 机器学习智能计算平台以 GPU 和 CPU 为计算集群的基础硬件资源，针对智能计算的需求和任务特点，使用云知声内部改进的 Kubernetes 作为资源管理和调度系统，通过计算任务容器化和图形化的任务交互，最大化的简化算法研究人员提交计算任务的复杂度，实现计算任务的全流程管理和一键式分布式运行。同时，针对智能计算对海量真实应用场景数据的访问特点， Atlas 智能计算平台构建具备 PB 量级的高 IO 和高可靠的分布式存储系统。

在计算机视觉等新的人工智能应用领域，更加依赖高性能的计算和海量数据的读写能力，而此恰恰体现了云知声在智能计算平台的超前布局。到 2019 年，Atlas 计算平台将具备 1000+ 的 GPU 计算资源和超过一亿亿次每秒的浮点计算能力，为在人工智能新领域的拓展奠定了强大的计算能力基础。

除此之外，在 Atlas 智能计算平台基础上，为了更加高效地实现算法模块共享和高效运行，云知声研发了 UniFlow 计算框架。支持 DNN、CNN、RNN/LSTM、seq2seq 等丰富的机器学习和深度学习算法模块，支持 TensorFlow 、 PyTorch 、Caffe 等主流计算框架以及用户自定义算法，同时，优化分布式任务的计算和通信逻辑，计算效率提升 50% 以上。在下一代的 UniFlow 中，还将集成自动调参和模型压缩模块，实现全流程托管式自动调参，能够为不同场景下的 AI 数据处理、算法演进提供高效的计算支撑。

基于 Atlas 计算平台和 UniFlow 计算框架，云知声实现在统一计算框架体系下的计算高效率和算法高产出，通过协同利用 AI 底层研发的技术成果，进而实现在人工智能的多个应用领域的快速拓展，从语音识别（ASR）、语义理解(NLU) 到机器翻译（NMT）、计算机视觉（CV）等新的人工智能技术领域。

值得一提的是，在今年5月份的WMT2018国际机器翻译大赛中英翻译比赛中，组建不足一年的云知声NMT机器翻译团队首战即斩获英中第二、中英第四，综合第三（BLEU关键评分仅次于第二名0.1）的成绩，同期参赛的还有阿里、腾讯、微软、剑桥等顶尖巨头与高校院所。结合此次在计算机视觉领域的佳绩，无疑证明了Atlas 计算平台在云知声探索多模态 AI 技术能力过程中的威力与价值。

云知声 CEO 黄伟指出，“在LFW和MegaFace 评测数据集上的初露锋芒，检验了云知声在计算机视觉研究方面的新进展，也更加坚定了我们发展多模态 AI 能力的信心。但是，从另一方面来看，技术的最终目的是落地，由单纯算法所驱动的技术差距实际上正在变得越来越小，如何将技术落地到场景才是所有的 AI 公司应该关心和考虑的。”

在技术场景化应用方面，云知声无疑拥有领先优势。目前，云知声领先的语音技术已在包括家居、车载、医疗、教育、金融、零售等多个领域实现落地。与此同时，在汽车行业，云知声已与吉利汽车达成合作，共同研发融合语音、计算机视觉等技术的车规级前装 AI 芯片。可以想象的是，伴随着计算机视觉技术的成熟，智能语音与计算机视觉技术的深入结合，将进一步丰富云知声 AI 产品与服务的形态，也将有效提升用户的使用体验。

责任编辑： WY-BD

———— 分享到 ————