Qzone

微博

微信

专访云知声黄伟：场景定义芯片，未来所有场景都需要AI

资讯 Tom 2018-07-16 11:48

2015年，有投资人跟云知声CEO黄伟说：“老黄啊，你要专注赛道，做好语音识别就够了。”

不过，他并没有听。“人工智能必须实现云端芯的一体化，”这个念头已经在他的脑中萦绕了近两年。

这一年，黄伟组建了芯片团队。

不仅公司内部，就连业内同行多数投来了不理解的目光。“一个做软件的，搞什么芯片？”

2018年5月16日，云知声发布了第一代UniOne物联网AI芯片“雨燕”及解决方案。在这5天前，他们刚刚拿到资本1亿美元的C轮融资。

年初，中兴事件的发酵，掀起了科技界的一股“造芯”热。不少人幡然醒悟。半年间，不少创业公司，纷纷号称要做自己的芯片。

AI科技大本营统计发现，根据创业邦发布的人工智能榜单数据，截止到目前，国内公开可查的50家主流AI创业公司中，宣布已经“推出AI芯片或芯片模组”的至少有8家。云知声就是其中一家。

这批有着激进时间表的公司大多在当前各自领域占据了一定优势地位。有的很早就开始着手AI芯片的研发，有的才刚刚推出芯片模组。

在近日创业黑马的AI独角兽评选活动上，与云知声站同一登台亮相的还有寒武纪、地平线、出门问问、思必驰。从AI芯片、到语音交互，还是计算机视觉等细分领域都已诞生了不少独角兽。

他们不约而同盯上的，正是芯片。为何一定要造芯？

场景定义芯片

如果按照芯片研发的业务领域进行划分的话，一种是用来支撑高计算量的老牌芯片巨头英伟达、AMD、英特尔，还有一种是提供云端芯片的如Google的TPU。此外，还有以提供手机芯片为代表的苹果、华为海思、高通骁龙、三星Exynos、联发科等，以及针对自动驾驶领域的百度昆仑、地平线等。

而云知声做的则是针对IoT场景下的全栈式终端芯片，这也决定了其“云端芯”概念的定位。

这里有两点值得注意：一是IoT；二是全栈式。

面向IoT，黄伟认为，只有把唤醒功能放到芯片里，才能做到低功耗。“以安防为例，如果摄像头上的芯片没有一定的本地处理能力，也就意味每一张图片都需要上传，那么这对带宽对服务器造成很大的负担。”

面向全栈，即意味着“将功能放到一个计算能力比较集中的芯片中”。

“当时我们讲的’云端芯’，’芯’是一种泛芯片，并没有说是一个独立的芯片。所以，我们第一代产品也是通过若干个芯片来实现一个功能。而语音交互是一个非常复杂的链路过程，在过去，一个芯片只能实现一个功能。所以，为了实现语音交互这种能力，需要将若干芯片配凑在一起。”黄伟讲到。

他认为，AI不会只发生在云端，一定有边缘智能，而且想要渗入到每个场景，对端一定会提出很多个性化的需求。

“无论是CPU、GPU还是FPGA，现有的芯片架构并非为AI专门设计，并不能满足IoT AI算力的需求。”而研发芯片的目的是需要规模化地使用算力，衡量一个芯片最主要的标准，就是看它能不能大规模的出货。

清华大学微电子所魏少军教授曾提到：“做语音芯片一定要看应用场景，目前很多场景下并不需要用到人工智能技术或者专门的语音芯片。”

这个问题同样也拷问着黄伟。

他认为：“未来AI可能会融入到每一个场景，只是说需要的能力不太一样。关键是，我并不认为有些场景需要AI，有些场景就不需要AI。AI是一种能力，可能未来所有场景都需要AI，只是说哪些先被AI赋能而已。”

那么，这个未来又有多远呢？

是做眼前的生意，还是未来的机会？

据最新资料显示，云知声已在智慧生活（家居、车载、机器人等）和智慧服务（医疗、教育、司法等）等场景有所布局，其合作伙伴数量超过2万家，覆盖用户超过2亿，云平台日调用量4亿次。

其实，目前不少创业公司在以上智能音箱、车载、家居、等领域均有业务布局的交叉，且彼此均占有不小的市场份额。丰富的应用场景，意味着是一片红海；而蓝海的地方，可能也没有丰富的场景。

“这就在于一个判断，你是想做未来的机会，还是眼前的生意？首先，一定要选择一个自己比较有竞争优势的行业，比如，这个行业比较新，还未形成垄断的壁垒。我们会选择当下比较困难，但未来是有机会点的领域。”

谈及未来的发展，黄伟表示：没有任何一个企业的创始人在创业早期就能确定一个很明确的商业模式，而且明确自己以后一定能够成功。商业模式是不断地试错、修正的。很多上市公司，上市时的商业模式和它成立时的战略是不一样的。

所以，回到自己身上，“目前我们仍处在希望占据更多的设备、服务更多的用户，然后产生更多的数据这个阶段。如果你有用户和流量了，你未来一定是有价值的。也就是说，把土地耕好了，上面长什么庄稼都行。”

对于盈利，黄伟颇为自信，他认为这个时间点将很快来临。“以智能音箱为例，2017年双十一之后的季度出货量基本在100万台，而2018年这个数字有望上升到1000万台。这个反映出：IoT的市场和起步速度在增长。与此同时，企业对这个领域的研发投入正在增加。”

数据很重要，但不是最决定性的

对于在2012年就发布了的深度学习框架DeepFlow，黄伟几乎是非常自信的。

网上流传着这样一个故事：“2006年深度学习鼻祖Hinton提出深度学习之后，微软在2011年间将它应用到语音识别领域，当时，黄伟的师兄俞栋还是微软语音和对话组的研究员，在意大利佛罗伦萨交流时曾告诉黄伟这是趋势，这给了他一些启发。”

深度学习在于需要大量的数据进行训练，很快，云知声就发布了自己的“语音识别公有云”，成为继科大讯飞之后第二家开放语音识别技术的公司，短短不过一年，平台上就已经有1000名开发者加入。利用开发者以联动各家App，将收集的用户的语音数据快速集中到平台上，以加强自身模型的训练。

目前，云知声已形成了“金字塔”式的技术架构，底层是DeepFlow集群，中间层是Atlas超算平台，将统计学习和深度学习里的通用算法抽样出来；顶层是应用层技术，如有ASR、TTS、NLU、NMT等应用层技术的输出。

值得一提的是，数据积累到一定程度后，海量数据带来的红利会越来越少。如语音识别，数据量从1万小时增长到10万小时，准确率会提高1%~2%，但这差别应该不是很大。如果此时还仅靠深度学习技术按照传统的方式训练数据，基本很难树立更高的技术壁垒。

黄伟认为，在AI的能力里面，数据很重要，但数据只是能力之一，不是最决定性的。“发布深度学习框架之前，我们的统计模型是基于统计学习的，就是用结构化模型去描述复杂物理世界的一些问题。当时，对我们来说，几百小时和几千小时的差距不会特别大，甚至比讯飞的准确性还要高。”

现阶段，以技术推动产品

人工智能领域，目前仍然具有较高的行业门槛，这也随之拉大了企业之间的竞争激烈性，而AI专业人才尤其是有相关项目研发经验的人才更是屈指可数。除了从各大技术公司挖角外，创业公司也纷纷开始创办自己的AI研究院，以扩充自身人才，加强技术壁垒。

2015年底，云知声成立了Unisound AI Labs，汇集了众多国内外知名企业的技术人才。

对于如何进行人才管理和设计总体的未来路线图，黄伟表示：“AI Labs是不需要管理的，技术人的自制力本身很强。难的是在于如何去建设、招揽人才。钱绝对不是第一位，他们看重的是能否在团队里获得成长。能力建设方面，定好战略、给够资源，等结果就行。”

实际上，这个团队是为产品服务的，并非纯研究的团队。目前云知声也开始从产品驱动技术的阶段向技术定义产品的阶段过渡。也就是说，“研究院应该提供一些更具前瞻性的技术能力，一种产品原型，用原型去驱动市场。以技术推动产品，这才是一个真正有创新力的技术公司应该做的事情。”他最后提到。

定位决定了你的挑战

在云知声推出的针对IoT的AI芯片UniOne之后的几个月里，出门问问、Rokid、思必驰也先后推出了AI芯片模组。说起来，包括云知声在内，这几家企业并非以AI芯片出身。

为什么敢做芯片？黄伟这样解释：“在IoT这个场景里面，算法起的作用比较大，而且它也不追求芯片的制成。这种芯片是放置在冰箱、音箱中的，可以理解成：用人工智能最领先的算法和芯片行业一年前的能力相结合，就可以满足这个行业产品的需要。所以，芯片设计本身不构成我们今天最大的问题。”

但是，与寒武纪、地平线相比，它们对标的是英伟达，这是高端芯片，这种比拼更像一种军备赛。他们可能也会考虑商业层面的成本、价格功耗等问题，但最优先级的一定是计算能力。

放在自然语义理解这个领域，目前对于整个行业来说均未取得一个比较明显的效果。

首先，图像识别和语音识别都是数据驱动的。自然语义理解在知识上就存在一个不确定性。

其次，自然语义理解，同样一段话，不同的人读都会得到不同的感受。在图像、声音、文本里面，最难的是如何理解文本。

三是如今的自然语义理解发展差距不大。

对于云知声来说，黄伟坦言：“在理论框架真正得到一个大幅度的改善之前，我认为唯一能做的就是在场景里把它做到最优。能够把产品的用户需求摸透，把数据、用户体验和技术很好的匹配起来。”

责任编辑： 3858NCY-BD

———— 分享到 ————