花粉乐分享平台宣传视频
> 华为资讯 > 华为资讯 > 华为芯片 > 华为麒麟970启示录:AI芯片的三大路径和两种场景
华为麒麟970启示录:AI芯片的三大路径和两种场景
来源:智东西
2022-12-04 09:39:00
408
管理

智东西

编 | 十四

如果想收藏本文的报告,可以在智东西头条号回复关键词“nc185”下载。

柏林 IFA2017(国际电子消费品展览会)新品发布会上,华为发布了“世界首款手机AI芯片”麒麟970,内置神经元网络单元(NPU),定位人工智能移动计算平台。

深度学习是人工智能重要的技术突破,可以说是第三次人工智能浪潮的直接原因。深度学习所需的海量训练数据又对处理器的运算能力提出极高要求,传统CPU执行AI计算成本高,效率低,AI芯片就成为了兵家高地。

*深度学习是人工智能的实现方式之一

*CPU AI芯片的异构计算是AI计算的主要架构

当前实现完整人工智能计算的方式为CPU AI芯片的异构计算,AI芯片也被称为AI加速器或计算卡。异构计算指的是采用不同架构的处理器协同计算。人工智能芯片(CPU、ASIC、FPGA 等)主要用来处理人工智能应用中的大量计算任务(其大规模并行计算能力优于 CPU),其他非计算任务仍由CPU负责,因此AI芯片也被称为AI 加速器或计算卡。

一、AI芯片的三条技术路径

*GPU在高性能运算方面的性能远超CPU

2011年,吴恩达率先将GPU用于谷歌大脑,发现12颗GPU可提供约2000颗CPU的深度学习性能,之后纽约大学、多伦多大学及瑞士人工智能实验室纷纷在GPU上加速其深度神经网络。

GPU是绘图运算工作的微处理器,最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,所以GPU只需要进行高速运算而不需要逻辑判断,其海量数据并行运算的能力与深度学习需求不谋而合。

*英伟达产品向云端和终端全覆盖

FPGA:可编程 更灵活

代表厂商:Xilinx、Altera(英特尔)

*FPGA用例

FPGA 是一种半定制电路,具备硬件可编程的特性,和GPU内都有大量的计算单元,因此它们的计算能力都很强。FPGA的峰值性能逊色于GPU,但是GPU由于架构固定,硬件原生支持的指令也就固定了,而FPGA则是可编程的,且功耗也要小得多。

全球有60多家公司先后斥资数十亿美元研发FPGA,包括英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星等,但最终成功的只有硅谷的两家公司:Xilinx与Altera(2015年,英特尔用167亿美元拍下)。这两家公司共占有近90%的市场份额,专利达到6000余项之多。2016年底Xilinx推出支持深度学习的reVision堆栈后,已有超过40家合作客户使用其芯片进行机器学习设计。

随着科技的进展,制造业走向更高度的自动化与智能化,对工业控制技术等领域不断产生新的需求,在未来的工业制造领域,FPGA将有更大的发展空间。

ASIC:定制化 高性能

代表厂商:谷歌、寒武纪……

*通用芯片和专用AI芯片对比(援引广发证券)

除了目前主流的两种改善通用芯片用于半定制的深度学习算法之外,业内也在积极研发面向人工智能应用的新的芯片,即专用集成电路ASIC(Application Specific Integrated Circuit)。

顾名思义,ASIC 就是根据特定的需求而专门设计并制造出的芯片,能够优化芯片架构,针对性的提出神经网络计算处理的指令集,因而在处理特定任务时,其性能、功耗等方面的表现优于 CPU、GPU 和 FPGA;但ASIC算法框架尚未统一,因此并未成为目前主流的解决方案。

*寒武纪1号神经网络处理器架构

*视觉终端应用人工智能的场景

*布局终端的低功耗人工智能芯片

终端设备的模型推断方面,由于低功耗、便携等要求,FPGA和ASIC的机会优于GPU 。人工智能芯片将更多地应用于视觉类、语言类终端设备。其中,图像视频处理方面,由于设备需要面对大量图像和视频,计算量高于语音和文字处理。主要的应用场景包括 安防、消费电子、汽车、工业和医疗诊断等。

四、华为麒麟970启示录

了解了三种海量数据运算的实现路径和两大计算场景,我们再回过头来看看华为的嵌入式AI芯片麒麟970——低功耗终端AI芯片设计思路:

*华为海思麒麟970架构

采用 10nm 制程,搭载 Cortex-A73(CPU)、Mali-G72(GPU)和麒麟 NPU(神经网络处理单元)。其中,麒麟NPU就是手机处理器平台新加入的一个擅长神经网络计算的单元,大概就是采用了寒武纪的IP了,目的是解决端侧AI(On-Device AI)。

*寒武纪IP产品CAMBRICON-1A

据报道:寒武纪的发展方向包括智能终端和云端:其中智能终端机方面,以IP技术授权为主,采用其 IP 华为的麒麟 970 即将跟随 MATE 10面世。云端推出专用加速卡,将与中科曙光开展合作。2016 年,寒武纪的“寒武纪 1A”深度学习专用处理器发布,可用于手机、安防设备、可穿戴设备等终端。2016 年,寒武纪已获得了1亿元的订单。

*麒麟970性能示意

NPU运算能力达到1.92先TF进P16ops,新的异构计算架构在处理同样的AI人物是能提高25倍的CPU性能和50倍的能耗表现。此外,麒麟970提供双ISP图像处理单元和Image DSP 信号处理单元,得益于更加强大的算法优化和AI神经网络辅助,吞吐量增加25%,支持AI场景识别、人脸追焦、智能运动场景检测,并提升了夜拍效果。智东西还独家获悉到,麒麟970在物体识别方面的一整套嵌入式AI解决方案(从算法+Camera Tuning)都来自中科创达。

*麒麟970的端侧AI四大挑战

端侧/嵌入式AI将面临并解决智能感知、精准认知、安全系统、动力系统四大挑战。华为消费者业务CEO余承东在本次大会指出:实时计算机视觉、低能耗AR和精确语言理解方面,是端侧AI创新的三个重要方向。

智东西认为,在目前的人工智能技术发展阶段,基于感知智能的算法发展大势,因此,这个时间点推针对性的AI芯片也算是顺势而为,这不是传苹果也要推AI专用芯片Apple Neural Engine嘛。作为试水产品,手机端AI应用基本是个荒地,麒麟NPU更大的任务可能是不要拖功耗的后腿,在此基础上,实现模式识别(图像、语音)、自然语言处理和SLAM技术等,趁势抢占高地,开源算法,组建移动AI开发者社区,布局相关生态,自然是锦上添花。

下载提醒:如果想收藏本文的报告全文,可以在智东西头条号回复关键词“nc185”下载。

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
123跟我走(采蜜高手)
文章
509
主题
19
关注
1
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索