首页 > 资讯 > 正文
Qzone
微博
微信

搜狗夺得interspeech 2020 DNS挑战赛实时降噪第一名

资讯 TOM    2020-08-10 12:38

近日,搜狗与西北工业大学音频语音与语言处理研究组(ASLP@NPU)合作,在微软组织的Interspeech2020Deep Noise Suppression Challenge(深度噪声抑制挑战赛,以下简称DNS)上,获得实时降噪赛道(Real-Time Track, RT)第一名和非实时降噪赛道(Non-Real-Time Track)第二名的优异成绩。

搜狗联合西工大击败众多名校名企,勇夺实时降噪第一

据悉,INTERSPEECH是微软组织的国际语音领域顶级会议,每年一届,设置论文征集和挑战赛环节。作为全球最具影响力的语音行业大会之一,深受行业关注,来自全球各地学校、研究机构、技术厂商都会积极踊跃投稿论文,以彰显自身科研实力。来自主办方发布的数据显示,本届INTERSPEECH2020收到了数以千计的论文投稿,由于对入选质量和数量有着极高的标准要求,评选过程异常激烈,最终录取率为47%。

而INTERSPEECH2020的竞赛主题之一是DNS挑战,主要围绕基于深度学习的语音增强(Speech Enhancement) 任务进行比赛。据了解,本次DNS挑战主要评价指标是MOS分。微软官方提供了从网络上收集的约500h的数据集供参赛者使用。最终官方提供盲测试集,参赛者使用自己训练的模型得到增强后的语音交给官方进行评测。

就在近日,论文入选和竞赛评测结果揭晓,搜狗联合西工大,提交的语音增强模型击败了来自亚马逊、索尼、Facebook、字节跳动、CitiBank、CMU、约翰霍普金斯大学、UTDallas、中科院、台湾中研院等全球各地的科研机构和知名厂商,取得实时赛道第一,非实时赛道第二的好成绩。与此同时,基于评测撰写的论文 “DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement” 也被 Interspeech 2020接收,并将在会议上宣读。

语音降噪技术创新有何意义?

我们知道,在语音的采集和传输过程中,由于信道损失、干扰噪声和混响等多方面的影响,语音的可懂度和音质可能会受到严重的影响。因此,在语音信号处理领域中,语音增强 技术一直作为一个重要的研究方向备受关注。我们知道,影响语音信号质量的一个主要因素来自于外部环境的干扰噪音。这不仅包含非人声的加性噪声,也包含非目标说话人的语音以及目标语音空间反射产生的混响。而搜狗与西工大本次提交的语音增强模型将近些年效果较好的卷积循环神经网络拓展成了复数卷积形式,采用了复数卷积与复数LSTM,加上跳连有效地提升了降噪能力。

以降低环境噪音、提升语音质量为目的的语音增强技术有广泛的应用空间。搜狗最新发布的智能录音笔产品就搭载了基于深度学习的语音降噪技术,基于软硬件有机结合,能够实现对4万种真实噪音的深度智能降噪,并可以根据周围的环境智能识别噪音并进行过滤消除,使得人声更清晰。罗永浩曾在直播首秀现场对搜狗智能录音笔S1的AI降噪功能进行测试。测试显示,在“吹风机”和“揉糖纸”所带来的巨大噪音环境下,开启了AI降噪功能的搜狗AI录音笔S1能够有效地消除环境噪音,还原清晰人声。除此之外,搜狗领先的AI降噪技术未来还或将应用在搜狗输入法、搜狗翻译等其他搜狗产品当中,比如应用在搜狗输入法上可以使得其语音识别能力大幅提升,识别率更高,产品体验更佳。

事实上,搜狗在本次DNS挑战赛上斩获实时降噪赛道(Real-Time Track, RT)第一名和非实时降噪赛道(Non-Real-Time Track)第二名的优异成绩并不意外。作为国内领先的人工智能企业,搜狗在语音技术上积累颇深,并一直围绕智能语音技术展开产品创新和技术探索。此次与西工大音频语音与语言处理研究组等顶级实验室在AI降噪技术领域展开合作,可谓是与其技术战略一脉相承。而击败国内外众多名校名企取得实时降噪赛道第一名,也再次证明搜狗在AI降噪及智能语音技术领域的巨大优势和领先地位。

 

责任编辑: WY-BD

责任编辑: WY-BD
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com