智东西
编 | 十四
如果想收藏本文的报告,可以在智东西头条号回复关键词“nc185”下载。
柏林 IFA2017(国际电子消费品展览会)新品发布会上,华为发布了“世界首款手机AI芯片”麒麟970,内置神经元网络单元(NPU),定位人工智能移动计算平台。
深度学习是人工智能重要的技术突破,可以说是第三次人工智能浪潮的直接原因。深度学习所需的海量训练数据又对处理器的运算能力提出极高要求,传统CPU执行AI计算成本高,效率低,AI芯片就成为了兵家高地。
*深度学习是人工智能的实现方式之一
*CPU AI芯片的异构计算是AI计算的主要架构
当前实现完整人工智能计算的方式为CPU AI芯片的异构计算,AI芯片也被称为AI加速器或计算卡。异构计算指的是采用不同架构的处理器协同计算。人工智能芯片(CPU、ASIC、FPGA 等)主要用来处理人工智能应用中的大量计算任务(其大规模并行计算能力优于 CPU),其他非计算任务仍由CPU负责,因此AI芯片也被称为AI 加速器或计算卡。
一、AI芯片的三条技术路径*GPU在高性能运算方面的性能远超CPU
2011年,吴恩达率先将GPU用于谷歌大脑,发现12颗GPU可提供约2000颗CPU的深度学习性能,之后纽约大学、多伦多大学及瑞士人工智能实验室纷纷在GPU上加速其深度神经网络。
GPU是绘图运算工作的微处理器,最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,所以GPU只需要进行高速运算而不需要逻辑判断,其海量数据并行运算的能力与深度学习需求不谋而合。
*英伟达产品向云端和终端全覆盖
FPGA:可编程 更灵活代表厂商:Xilinx、Altera(英特尔)
*FPGA用例
FPGA 是一种半定制电路,具备硬件可编程的特性,和GPU内都有大量的计算单元,因此它们的计算能力都很强。FPGA的峰值性能逊色于GPU,但是GPU由于架构固定,硬件原生支持的指令也就固定了,而FPGA则是可编程的,且功耗也要小得多。
全球有60多家公司先后斥资数十亿美元研发FPGA,包括英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星等,但最终成功的只有硅谷的两家公司:Xilinx与Altera(2015年,英特尔用167亿美元拍下)。这两家公司共占有近90%的市场份额,专利达到6000余项之多。2016年底Xilinx推出支持深度学习的reVision堆栈后,已有超过40家合作客户使用其芯片进行机器学习设计。
随着科技的进展,制造业走向更高度的自动化与智能化,对工业控制技术等领域不断产生新的需求,在未来的工业制造领域,FPGA将有更大的发展空间。
ASIC:定制化 高性能代表厂商:谷歌、寒武纪……
*通用芯片和专用AI芯片对比(援引广发证券)
除了目前主流的两种改善通用芯片用于半定制的深度学习算法之外,业内也在积极研发面向人工智能应用的新的芯片,即专用集成电路ASIC(Application Specific Integrated Circuit)。
顾名思义,ASIC 就是根据特定的需求而专门设计并制造出的芯片,能够优化芯片架构,针对性的提出神经网络计算处理的指令集,因而在处理特定任务时,其性能、功耗等方面的表现优于 CPU、GPU 和 FPGA;但ASIC算法框架尚未统一,因此并未成为目前主流的解决方案。
*寒武纪1号神经网络处理器架构
*视觉终端应用人工智能的场景
*布局终端的低功耗人工智能芯片
终端设备的模型推断方面,由于低功耗、便携等要求,FPGA和ASIC的机会优于GPU 。人工智能芯片将更多地应用于视觉类、语言类终端设备。其中,图像视频处理方面,由于设备需要面对大量图像和视频,计算量高于语音和文字处理。主要的应用场景包括 安防、消费电子、汽车、工业和医疗诊断等。
四、华为麒麟970启示录了解了三种海量数据运算的实现路径和两大计算场景,我们再回过头来看看华为的嵌入式AI芯片麒麟970——低功耗终端AI芯片设计思路:
*华为海思麒麟970架构
采用 10nm 制程,搭载 Cortex-A73(CPU)、Mali-G72(GPU)和麒麟 NPU(神经网络处理单元)。其中,麒麟NPU就是手机处理器平台新加入的一个擅长神经网络计算的单元,大概就是采用了寒武纪的IP了,目的是解决端侧AI(On-Device AI)。
*寒武纪IP产品CAMBRICON-1A
据报道:寒武纪的发展方向包括智能终端和云端:其中智能终端机方面,以IP技术授权为主,采用其 IP 华为的麒麟 970 即将跟随 MATE 10面世。云端推出专用加速卡,将与中科曙光开展合作。2016 年,寒武纪的“寒武纪 1A”深度学习专用处理器发布,可用于手机、安防设备、可穿戴设备等终端。2016 年,寒武纪已获得了1亿元的订单。
*麒麟970性能示意
NPU运算能力达到1.92先TF进P16ops,新的异构计算架构在处理同样的AI人物是能提高25倍的CPU性能和50倍的能耗表现。此外,麒麟970提供双ISP图像处理单元和Image DSP 信号处理单元,得益于更加强大的算法优化和AI神经网络辅助,吞吐量增加25%,支持AI场景识别、人脸追焦、智能运动场景检测,并提升了夜拍效果。智东西还独家获悉到,麒麟970在物体识别方面的一整套嵌入式AI解决方案(从算法+Camera Tuning)都来自中科创达。
*麒麟970的端侧AI四大挑战
端侧/嵌入式AI将面临并解决智能感知、精准认知、安全系统、动力系统四大挑战。华为消费者业务CEO余承东在本次大会指出:实时计算机视觉、低能耗AR和精确语言理解方面,是端侧AI创新的三个重要方向。
智东西认为,在目前的人工智能技术发展阶段,基于感知智能的算法发展大势,因此,这个时间点推针对性的AI芯片也算是顺势而为,这不是传苹果也要推AI专用芯片Apple Neural Engine嘛。作为试水产品,手机端AI应用基本是个荒地,麒麟NPU更大的任务可能是不要拖功耗的后腿,在此基础上,实现模式识别(图像、语音)、自然语言处理和SLAM技术等,趁势抢占高地,开源算法,组建移动AI开发者社区,布局相关生态,自然是锦上添花。
下载提醒:如果想收藏本文的报告全文,可以在智东西头条号回复关键词“nc185”下载。
花粉社群VIP加油站
猜你喜欢