首页 > 资讯 > 正文
Qzone
微博
微信

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

资讯 TOM    2018-07-27 17:13

品途解读:可以肯定的一点是,云知声肯定不止专注语音领域,图像领域一定会涉及。李霄寒说:“人工智能设备是让机器更像人,这样的话就必须提供多种感知能力,图像是必不可少的环节。”

成立六年的云知声,开始在AI芯片领域发力了。

先是发布了旗下UniOne系列第一代AI芯片“雨燕”,随后公布6亿元C+轮融资,近日,云知声联合创始人、芯片技术负责人李霄寒正式宣布开源全栈语音交互方案。

作为一家专注于语音领域的人工智能公司,云知声早在2015年就有了打造芯片的想法,并且开始组建团队。2016年,云知声正式宣布研发芯片,今年5月份,雨燕发布。

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

李霄寒也表示,云知声的新一轮融资很大部分比例会投入到芯片上。芯片开源语音交互方案,则是为了更快地将合作伙伴范围扩大。

开源到底为云知声带来怎样的效果?品途商业评论采访到李霄寒,带来他对于AI芯片领域的思考。

UniOne系列AI芯片

李霄寒认为,由于先进的EDA工具、FPGA模拟工具、成熟的IP商业生态、众多优秀的的设计服务公司的因素,数字芯片设计流程正变得越来越成熟;而众多开源设计框架以及算法,使芯片门槛大大降低,但做得好的门槛依旧很高。

同时,对应用场景的理解将超过数字电路设计能力,将成为芯片能否成功的决定性因素。这里对应用场景的理解包括对应用的理解以及对业务的理解两部分,也是在芯片之间产生明显差异化的部分。

在李霄寒看来,云知声同时具备算法、场景以及芯片设计方面的三个关键要素,因此有条件产出物联网场景下最好的AI芯片。

雨燕由云知声自主设计研发,同时包含了通用CPU、AI加速器(DeepNet)以及数字信号处理器(uDSP)架构,采用自主AI 指令,面向语音AI场景,支持6个模拟/数字麦克风接入。李霄寒特意提到,深度神经网络性能较通用方案提升超50倍。

雨燕属于UniOne第一代芯片,在之前的芯片发布会上,云知声方面提到,UniOne还要推出第二代芯片“雪豹”和第三代“旗鱼”,面向智能车载和智慧城市场景进行升级。

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

从当前来看,雨燕在智能家居方向分为两种方案,分别对应智能音箱和智能家居。

向客户提供软硬件云+端一体化的解决方案是云知声最常见的合作方式。此前,在白电领域大规模出货的智能硬件模组就是以这种方式为不少大公司服务,诸如美的、格力等等。

在雨燕发布后,云知声提供的方案更加立体,从芯片到解决方案形成一套完整的解决方案提供给客户,并且不仅限于空调、智能音箱等设备。所有智能家居硬件产品都可以尝试接入云知声的人工智能技术。

除此之外,云知声还想玩点不一样的。

开源全栈语音交互方案

在智能家居行业中,无论是品牌厂商或供应商,都会遇到各种各样的困难。

以智能音箱举例,如果一个厂家要打造一款智能音箱产品,首先遇到的困难是供应商选择。

因为涉及到语音的各个环节,降噪、识别、合成等等,更不用说音箱的设计,声音调校……一款音箱上市必须要经过长时间的测试,寻找多家供应商“攒”出来产品,如果某一家供应商没有达到最好的效果,那么音箱的体验也就大打折扣。

作为智能音箱,就意味着必须和AI有紧密联系,而当前大多数人对AI产品还不具备太多经验,研发过程中必然有很多不确定性事件,在产品的打磨上很耗费时间精力。

“希望有一家供应商把这些事情全搞定。”这是云知声调研了许多合作伙伴之后得出的结论。

相对应的,由于繁杂的客户类型以及产品形态,方案提供商不可能同时支持很多客户,云知声也由此想到了一个新的方案:开源。

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

“外面好多合作伙伴都说我们特别‘独’。”李霄寒表示。云知声提供的一站式解决方案让很多希望与其合作的方案商感觉云知声不愿意和大家一起玩。但李霄寒认为“独”是对合作伙伴的负责。

因为面向智能家居实现 AI 落地,牵涉到非常多的环节,比如需要积累可以量产化的结构经验;比如需要通过引擎、硬件平台选型以及系统优化,满足家电厂商整体的功耗要求;再比如适配云知声引擎,并在价格和性能方面达到最佳配置的通用芯片选型。

这些都需要经过团队之间日常的紧密的合作,有时候甚至需要针对某些硬件特点做相应的引擎代码级别修改,才能真正实现最佳效果。

“如果仅仅提供一个引擎给自己的合作伙伴,再提供一些 SDK 层面的适配和支持,其实对自己的合作伙伴,包括对自己的团队,都是不负责任的。因为大家资源都是有限而宝贵的,引擎原厂没有足够的硬件、系统和产品经验,是无法高效支撑合作伙伴,最终大家做了很多合作,可能只是一场热闹,而无法做到量产出货。”

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

云知声将自己在 IVM 实际落地场景下积累的经验和参数,落实到自有 AI 芯片 UniOne 的设计中,期望通过芯片,最大可能地把家居场景下的关键部分进行固化,再将该芯片之上的全栈语音交互进行开源,大大降低技术门槛、缩短上市时间,从而确保合作伙伴与云知声的合作都有收获。

李霄寒用联发科手机方案用做对比:联发科提供基于MTK手机芯片的全部方案,如果不做修改外面套一个手机外壳可以直接出货,要修改的话也只需要做简单的改动。“有最佳体验、可高度定制、能迅速出货是我们的三大优势。”他说到。

AI芯片时代保证效率

“Turnkey方案的开源,必将大大促进整体智能硬件产品的开发”,谈及这点,李霄寒信心满满,原因主要来源于以下三个方面:

一、 智能硬件的产品经理非常稀缺,尤其是懂语音交互设计的产品经理。语音交互(VUI)与之前屏幕为主要展示的图形界面交互(GUI)差别非常大,前者是扁平结构,一句话直达系统任何一个图形界面,可以做任何一个操作。而后者是树形结构,需要一步步点击。

这两种交互各有优势,而 VUI 目前市面上人才不多,又由于其扁平结构的特性,在设计的时候,需要从系统整体层面来考虑,而不是简简单单一个 App 层面。如此总总,都大大增加了 VUI 设计难度。

“产品交互设计如果都不好,最终开发的产品效果就可想而知了。”而作为云知声创始团队的李霄寒有着十多年的人机交互相关研究经验,从 Motorola 手机上的语音交互到云知声车载到格力空调、斐讯音箱,云知声团队积累了丰富的 VUI 设计和开发经验,整体语音交互方案随着 UniOne 一起作为 Turnkey 方案整体开源,这一切将大大降低行业门槛。

对话云知声AI芯片负责人:开源全栈语音交互方案,未来会进入图像领域

二、 语音交互方案开源将大大缩短开发周期。作为一个系统级的功能,语音交互方案将处理音频驱动,处理与系统其他应用的交互,处理各个案件和唤醒事件,而且必须足够健壮稳定,这些都随着云知声开源方案得到解决。

合作伙伴可以只做浅层次的定制化改造,比如唤醒词修改;也可以做深层次开发,可以在看懂整体方案情况下,完全重写。

三、 云知声经过考验的实施团队。在“芯时代”,这支团队将为愿意采用云知声 UniOne 的合作伙伴提供整体开源方案的技术支持,包括代码培训、工具开发等,尽一切可能降低合作伙伴熟悉整体开源方案的学习曲线陡峭度。

云知声方面透露,Turnkey方案预计将于9月15日正式开源。

在谈到竞争问题时,李霄寒也告诉品途商业评论,当前语音开放平台很多,但是大多针对云端服务功能,云端能力对于开发者来说帮助并不大,关键路径在于边缘侧。而和品牌厂商的关系属于上下游,并不会产生竞争。

这一套方案不仅是面向之前错过的合作伙伴,而是希望将此前没有类似想法的公司吸纳进来,让他们了解到产品变成智能硬件的门槛有多低。

此次AI芯片的发布,也让云知声的定位发生变化:从前是技术提供商,现在变为AI云服务商、软件方案商和芯片原厂。

至于未来云知声会是怎样的定位,谁也无法预测。李霄寒告诉品途商业评论,可以肯定的一点是,云知声肯定不止专注语音领域,图像领域一定会涉及。“人工智能设备是让机器更像人,这样的话就必须提供多种感知能力,图像是必不可少的环节。”

李霄寒表示,物联网在快速发展的阶段,未来发展有很多可能性,在大幅加强芯片投入的同时,云知声团队也会一边做一边寻找新的创新机会,而不论语音或图像,都是从物联网角度出发。

当前来看,云知声在几年前就开始规划未来,可以为未来的成果或风险买单。“只要坚定往前走就可以了,这是保证效率上的优势。”在形态、机会激烈演变的过程中,效率对于云知声来说尤为重要。

责任编辑: 3965LC-BD

责任编辑: 3965LC-BD
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com