架构专用化助力芯片算力中科驭数要用全栈式解决方案实现数据力量

资讯 TOM 2019-02-21 10:49

编者按：鄢贵海表示，摩尔定律在过去半个世纪的辉煌既来自于工艺进步，也来自架构的不断创新。

今年年初，国家发改委副主任连维良在国新办新闻发布会上表示，2019年将加强新型基础设施建设，推进人工智能、工业互联网、物联网建设，加快5G商用步伐等。随着国内三大运营商在17个试点城市紧锣密鼓地部署，由政府、巨头和投资机构的共同带动的5G商用将进入最后的准备阶段，从IT时代走向DT时代成大势所趋。

与此同时，伴随着5G、物联网、人工智能等带来的数据爆发和新兴应用领域的不断创新，实时而智能的商用提速技术不仅是包括Google、Amazon、Facebook、阿里等全球巨头们集体布局的新方向，在投资圈的热度也持续走高，被业内称为“下一个风口”。据了解，近三年，芯片晶体管密度的年化增长率仅为3.5%，这无疑宣布了在工艺不断细化已逼近一定物理极限的“摩尔定律”，即芯片的运算能力大体上按照每18个月翻一番的速率在增长，已基本失效。

来自中国科学院计算所的中科驭数CEO鄢贵海表示，摩尔定律在过去半个世纪的辉煌既来自于工艺进步，也来自架构的不断创新。芯片制造工艺进步所带来巨大贡献体现在几乎对架构不做任何更改，仅依赖采用更细化的半导体工艺，就可以带来可观的性能提升。同时，更密集、更便宜的晶体管和互连线等片上资源也为更多架构设计提供了可能性。但是伴随着低延迟、多形态终端的5G技术出现，呈指数级增长的数据需要更强大的计算效率和能耗比，目前依靠传统的通用计算已很难有效地为继，而专用计算架构将发挥巨大的作用。显然，在找到“新摩尔定律”之前，架构的创新需要担负起更重要的角色。

近年来，随着越来越多的细分领域市场规模增长迅速，如“人工智能”、“区块链”“边缘计算”等都被预测将承载的数千亿甚至万亿美元量级的市场，专用计算架构成为“后摩尔时代”的重要机遇所在。以“去中心化”、“场景定义计算”、 “定制计算支撑场景多元化”、 “软硬件协同”、 “全栈式解决方案”等为代表的需求已是发展趋势。

事实上，在通用处理器CPU的算力到达瓶颈期之后，业界早就开始通过专用的协处理器来寻求算力的提升，并取得了不错的效果。例如AI热潮带来GPU的高速增长，比特币也引发了矿机芯片的需求激增，Gartner，IDC等分析机构也都预计，到2020年，在服务器市场，协处理器总的渗透率将超过5%，除GPU以外的协处理器渗透率也将超过3%。

但随着应用领域的快速创新，过去还尚不明显的商业需求越发的显现出来，由于英特尔、微软等在计算领域的多年垄断，导致市场上多位应用层企业，而底层研发团队基本上都在研究院所，这也导致国内具有全栈式解决方案技术的团队非常稀缺。

因此，脱胎于我国计算机产业的摇篮——中科院计算所体系结构国家重点实验室脱的中科驭数，极为难得的具备了可“打造加速生态，破解算力瓶颈”的先天优势。其核心原创技术为KPUTM(即核处理器，已提交备案)，是专为加速特定领域核心功能计算而设计的一种协处理器。 KPUTM以功能核作为基本单元，直接对应用中的计算密集性应用进行抽象和高层综合，实现以应用为中心的架构“定制” 。

据介绍，一颗KPUTM根据需求可以集成数十至数百个功能核。在运行机制上，采用“数据驱动并行计算”的架构，运行过程中通过数据流来激活不同的功能核进行相应计算。从而可以实现“功能核”到运算需求的“一对一”服务，保证效率。中科驭数提供了基于KPU™的加速堆栈解决方案，其中包括了KOS，KLIB等一系列的技术栈。既可以帮助应用开发人员无缝的使用KPUTM的加速性能，同时也能够帮助数据中心和运营者为更好的管理KPU™，打造以KPU™加速器为中心的软硬协同算力生态。

鄢贵海表示，在数据量变大、算法复杂、带宽增加、实时要求高的情况下，必将对芯片算力有更高的要求，而架构“专用化”将是重要途径很多领域计算模式各不相同。如金融计算、实时数据库、人工智能、数据中心、高性能计算、基因测序、区块链等差异显著，但共同的特征为数据驱动、计算密集、端云一体等。KPUTM就是要赋能计算密集型应用、显著提升计算效率的专用协处理器。

据了解，KPU™的核心是根据应用的计算特征“针对性配置”运算单元核，设置“功能区”和“非功能区”。“功能区”可根据计算特征来配置不同的核，设计成本相对较低。非功能区可复用，再一次降低开发成本。且计算密集型而非控制密集型的数据架构和近存储 (Near Memory)架构的整体结构使计算更高效。目前已经完成近30项专利申请，并且还在快速的增长。同时在计算金融、实时数据库、人工智能、区块链等领域都有布局。其首款产品——金融时间序列分析专用芯片“功夫1800(CONFLUX 1800)”，团队测算，性能会比通用GPU高两个数量级，功耗小于10瓦。计划将在19年年底实现量产。

团队方面，创始人兼CEO鄢贵海，本科毕业于北京大学，中科院计算所博士，计算所研究员(正教授)，在计算机体系结构领域深耕十余年，主持多项国家自然科学基金项目, 累计经费近千万，获得北京市科技二等奖，中国计量学会技术发明二等奖，中国质量协会一等奖，中国计量学会技术发明二等奖等多项省部级科技奖励;入选中科院青年创新促进会，科技北京百名领军人才团队五名核心成员之一。首席科学家李晓维，中科院计算所体系结构国家重点实验室常务副主任，主要研究领域为VLSI测试、容错计算，获北京市科学技术奖(2007、2008) 、国家技术发明奖(2012) ，入选国家百千万人才工程(2013)。核心创始团队近人，均出自中科院计算所、清华、北大等研究所或高校相关专业;现有团队20余人，其中博士11人，硕士7人，团队成员60%以上来自中科院、清华、北大，基本都为核心技术人员;团队计划年底增至40人，一年内发展到100人左右的规模。

据悉，作为领域专用计算架构研发的开拓者，中科驭数成立于2018年5月，团队此前层在相关领域进行了十余年研究，在ISCA、HPCA、计算机领域旗舰期刊IEEE Trans. on Computers等发表过40余篇高水平论文，并在2015年形成国家重大自主研究平台。公司成立不到百天即获得由中科创星领投、久友资本跟投的数千万人民币，目前正在寻求8000万的Pre-A轮融资。其产品为原创技术KPUTM的三个系列，分别为CONFLUXTM(功夫TM)、FLEXFLOWTM(福来TM)、TRUSTYTM(信芯TM)，将以最近三年发展极为迅速、且得到国家多方位支的金融科技(FinTech)领域作为首个落地领域，其“功夫”系列的专用加速器研发已基本成熟。

鄢贵海补充，金融领域加速大多仍然用的是GPU，但GPU本质上是单指令多数据(SIMD)的计算模式，与金融风控应用里的规则集处理模式无论是在计算模式上还是对数据流的处理上，都是不相适应的。而KPUTM多“核”函数、多数据流(MKMD)的模式则非常适合这类应用。并行的数十路数据每更新一次，就输出一次结果，无疑有着更高的实时性、更优的效率和更低的功耗。另外KPUTM芯片中的核极高的集成度，把数据的、清洗等可以一起放在模型中计算，可以少了很多数据交互，也是提升性能的原因。中科驭数结合了其特有的时间流数据，建立了FinTech垂直行业基础层赋能架构“FinArch”，不仅高性能、简操作，且易落地。