在今年的IFA也就是柏林国际电子消费品展览会上,华为的首席执行官余承东发布了华为今年的全新处理器—麒麟980。这款产品的发布,使得华为创造了多个世界第一,包括首次采用TSMC 7nm工艺,首次采用全新Cortex-A76架构、加强的全新AI引擎以及更强大的GPU等。纵观华为之前在移动SoC上的努力,可以看出华为是一个坚持自研芯片并不断追赶世界先进水平的公司。
从麒麟家族的第一款产品也就是首次采用ARM Cortex-A72处理器架构以及TSMC 16nm FF工艺的麒麟950开始,到随后采用Cortex-A73架构的麒麟960,以及目前大热的首先加入AI专用核心的麒麟970,华为在移动SoC上的步伐可谓一步一步、异常坚定。不过由于各种各样的原因,麒麟处理器在之前和高通骁龙家族的比拼中,往往是起个大早、赶个晚集,性能或者功能总有不够令人满意的地方。那么,本期的麒麟980又会带来怎样的优势,是否会全面超越目前大热的骁龙845呢?
全新的麒麟,全新的核心 为了清晰地展示新处理器的相关信息,本文先从麒麟980的规格表开始。从规格上来看,相比之前的麒麟970和麒麟960,麒麟980可谓全面升级,基本上处理器的每一个部分都有了明显的进步,包括CPU、GPU、存储、ISP、基带、编解码能力、NPU等。
由于麒麟980在规格上做出了全面升级,因此本文将对每个部分进行详细解读。
工艺:首次使用7nm制造 麒麟980处理器是全球首个官方发布使用7nm的移动SoC产品,其工艺来源是台积电。作为全球最大的芯片代工企业,台积电在7nm工艺上的积极布局终于得到了回报。
一直以来,在7nm的工艺路线选择上,业内存在不同的看法。由于芯片尺寸越来越小,传统的沉浸式光刻技术已经逐渐不能满足14nm以下的芯片生产需求了,因此有关7nm工艺的实现方式,台积电和业内另一家巨头三星产生了分歧——三星选择了全新的EUV光刻技术来生产自己的7nm产品,而台积电则坚持使用“最后的”沉浸式光刻,这需要结合多重曝光等技术来满足更小尺寸线宽晶体管的生产。
▲AMSL EUV光刻机,本代台积电没有采用EUV工艺。据悉下一代
麒麟990产品将使用EUV的7nm工艺制造。
相较之下,采用全新EUV工艺的优势在于可能会带来更好的晶体管形态、更出色的性能和更优异的尺寸表线等,但是缺点在于进度较慢且不可控因素太多;采用成熟的沉浸式光刻生产7nm世代的产品优势在于技术相对成熟,风险较小且量产时间有保证,缺点则是成本可能不好控制、芯片性能和尺寸等方面可能比EUV工艺略差。
不过,台积电最终的产品性能显示,即使使用传统的193nm沉浸式光刻技术研发出来的7nm工艺性能表现依旧非常不错,相比上代10nm工艺,台积电7nm工艺可以在晶体管数量相同的情况下将芯片面积缩小37%,或者在电路复杂度相同情况下降低40%的功耗。相比之前的16nm而言,7nm工艺更是在可比条件下降低了60%的功耗、提升了30%的性能或者减少了70%的芯片面积。
▲麒麟980的晶体管数量为69亿,已经是初代麒麟920的3.5倍之多。
台积电也评估,即使采用EUV技术获得更好的性能表现,7nm EUV对比目前的7nm DUV,性能在可比条件下也最多只能提升10%、面积继续缩减10%~20%,但是量产时间可能推迟一年。综合考虑下,台积电目前的7nm工艺将是业内性价比最好的选择——毕竟2亿美元一台的EUV光刻机不仅价格昂贵,还数量稀少,排队购买尚需时日,且不要说迅速量产了。
因此,在新工艺的加持下,华为在新的麒麟处理器中可以塞入更多的晶体管,并带来更好的功耗控制和更出色的性能表现,最终实现处理器性能上的飞跃。
CPU架构:全新八核心 DynamIQ 全新架构 有关麒麟980处理器架构的内容有两点值得探寻:一方面是采用了全新的Cortex-A76搭配Cortex-A55,另一方面是麒麟980首次采用的三分组的处理器结构,实际上拥有八个物理核心。这种设计是继联发科采用类似的三分组结构之后,其他厂商首次采用类似的设计。不过虽然表面上都是三组,但实际上内里大有不同。
全新的Cortex-A76 Cortex-A55大放异彩
先来看麒麟980的所采用的CPU架构。华为在之前的麒麟处理器中采用的架构就比较激进,基本上会跟随ARM最新发布的架构,本次也不例外。麒麟980是全球首个采用Cortex-A76架构的移动SoC产品,CPU搭配方案为Cortex-A76 Cortex-A55,是ARM最新的处理器架构搭配方案。
▲麒麟980在架构设计上的独特之处就是8核心的“2 2 4”方案
从架构角度来看,Cortex-A76采用了超标量乱序结构,拥有4个解码前端(4发射),8个执行端口,总流水线级数13级,执行延迟为11级,总体规模巨大,堪称一款“
笔记本电脑”级别的高性能处理器架构,同时还具有高效能。
就通用IPC而言,相比Cortex-A75,ARM承诺Cortex-A76的整数效能提升25%,ASIMD/浮点效能提升35%,再加上90%的内存效能提升,因此最终可以在GeekBench4中提升25%,JavaScript性能增加35%,在AI计算中,Cortex-A76的双ASMID 128位计算单元使得半精度矩阵乘法的性能达到之前产品的3.9倍。总的来说,Cortex-A76是一款“大尺寸、高性能”的处理器产品,其尺度和规模决定了只有7nm乃至更先进的工艺才能很好地“镇压”这款处理器核心。
相比“巨大”的Cortex-A76,Cortex-A55则是以小巧和极端的能耗比著称。Cortex-A55是一个2发射、顺序执行、8级流水线的CPU核心。这一点和其前代Cortex-A53类似——实际上Cortex-A55的设计很大程度上来源于对Cortex-A53的深度优化。其改进主要在于分支预测、数据读取和写入(AGU)以及缓存部分,在执行部分改进较少。性能方面,由于架构大幅度改进,ARM宣称Cortex-A55的内存性能相比Cortex-A53提高了1倍,因此带来了整数18%、浮点38%、渲染14%、综合21%的性能增加。
由于新的架构加持,因此麒麟980的处理器性能相比之前的麒麟970大幅度跃升(麒麟970采用的是较老的Cortex-A73 Cortex-A53的方案,华为实际上跳过了Cortex-A75架构)。根据华为的数据,在Dhrystone这样的专注于CPU核心计算能力的测试中,麒麟980的性能超出麒麟970大约75%,能耗比则比麒麟970提高了58%。
▲在采用全新架构后,麒麟980的性能相比麒麟970提升75%,能耗比提升58%。
DynamIQ加持:创新的三分组方案兼顾性能和功耗
除了本身架构方面的优势外,麒麟980的另一个优势在于使用了特殊的三分组核心方案来构成八核心处理器,这一点在之前的处理器设计中是非常少见的。
具体到产品上,麒麟980的核心分为高性能、高能效比、低功耗三组。其中高性能组采用的是2个运行频率在2.6GHz的Cortex-A75处理器核心,考虑到目前的7nm工艺尚处于初代,因此不太可能达到ARM推荐的3GHz水平,但2.6GHz的处理器频率也已经不低了。
高能效比核心依旧是Cortex-A76架构,但是频率降低到了1.92GHz,这应该是一个非常好的性能、功耗衔接点,很可能在大部分中量或者日常任务场景下这两个核心会被优先启用。最后则是低功耗核心,由四个Cortex-A55架构的小核心组成,运行频率为1.8GHz。根据华为的描述,这样的设计能够有效提升实际应用中的能效比。
从技术角度来看,三分组设计的CPU核心在之前并非没有出现过,联发科的10核心处理器曾经使用过三分组设计方案,但是由于内部调度和总线设计的技术难题,实际效果表现并不是特别出色。华为之所以能够在麒麟980上使用类似的设计并对其抱有充足的信心,主要还是由于放弃了传统的big.LITTLE总线,使用了全新的DynamIQ调度方式。
所谓DynamIQ,是指ARM在2013年开始研发的一种不同处理器核心灵活调度的技术,这项技术的核心要点有三个部分:
首先,核心集群规模扩大、电源控制更为灵活。DynamIQ中,每个集群中最多可以有8个内核(bL技术最多允许4个),允许32个集群存在,内核数量最多可达256个。另外,ARM允许处理器实现自由搭配,一个集群中处理器并不限制架构和型号,且电压和频率上的控制就变得更为宽松自由,能够更为自由的匹配不同目的、类型的核心。
其次,在集群搭配方面,在新的DynamIQ中,ARM认为虽然未来的处理器还是以八核心配置为主,但是八个核心都可以放在一个集群内,可以实现Cortex-A76和Cortex-A55的任意搭配组合,比如类似麒麟980的“2 2 4”,或者传统的“4 4”,甚至极端的“1 7”等都非常适合。另外,由于电源管理升级,DynamIQ技术下不同控制域的核心可以实现不同的频率、电压方案,也可以单独关闭。
第三,缓存的改进也是DynamIQ亮点之一。在DynamIQ上,ARM将L1和L2缓存全部都设定为了核心专用缓存,这样可以使得L2缓存的延迟降低50%以上,集群中的所有核心使用可选的L3缓存,容量可选1MB、2MB或者4MB。新的L3缓存为16路设计,技术上属于伪独占设计,不过ARM表示L3缓存完全独立,几乎所有的L3内容都不会出现在L1和L2缓存中。
总的来说,DynamIQ不再仅仅是一套软件和总线的组合,它成为了一套复杂的控制体系,包括DynamIQ Shared Unit单元用于控制和管理整个处理器核心的电压、频率;DSU作为集群内CPU和系统其余部分的通讯中心,实现数据传输控制的功能;此外包含了异步桥、探听过滤期、L3缓存、Bus I/F、电源管理器、ACP(加速一致性端口)和外围设备I/F等部件,实现电源管理、核心同步、处理器和外部设备之间的衔接等功能。
由于DynamIQ的引入,麒麟980在处理器核心使用效率方面相比之前的big.LITTLE技术应该有巨大的提升,包括单独关闭、启动任意核心、不再整组启动核心而是根据需要单独启动等,独立控制每个核心的电压和频率等,这些设计都会带来能耗比的提升。
另外,在缓存方面,相比前代产品独立L1缓存、共享L2缓存的设计,麒麟980的L1、L2缓存都已经变成核心独享。两个高频、两个中等频率的Cortex-A76核心每个都拥有512KB的L2缓存,每个Cortex-A55核心独占128KB L2缓存,这带来了延迟的大幅度降低,所有核心都共用4MB L3缓存。L3缓存通过分区能够实现效能的最大化,甚至某分区可以为单独的任务和内核分配,或者由操作系统动态管理等。这些都是之前的处理器不可能做到的。
除了DynamIQ之外,华为表示自己采用了一种全新的“灵活调度”机制,但是目前尚未有任何可公布的信息,因此是否华为采用了更多独创的技术,只有等待华为进一步的说明或者更深度的测试才能揭示。
GPU架构:首次使用10核心Mali G76 麒麟系列处理器的GPU性能一直不算同类产品中顶尖的,因此也影响了
华为手机在游戏上的表现,为此华为还推出了名为“GPU Turbo”的技术来加强手机游戏性能。不过,在麒麟980上,华为在GPU上表现颇为激进,10核心的Mali G76的使用,让GPU不再是处理器的短板。
虽然表面上看来,麒麟980中的10核心Mali G76 GPU要比上代麒麟970采用的12核心Mali G72核心数量要少一些,不过作为Mali家族最新的GPU架构,Mali G76在有很多独到之处的,其中最重要的特点就是Mali G76的每个EU单元中拥有8组FMA和ADD/SF流水线,相比上代Mali G71/G72的4组直接翻倍,这样带来的效果就是EU单元的计算资源翻倍,但是核心面积并没有由于计算资源翻倍而大幅度增加,根据ARM的数据,新EU面积只增加了22%,相比性能来说,是完全可以接受的。
除了架构本身的变化外,Mali G76在细节方面存在一些更新,比如GPU一次填充的线程粒度,英伟达一直使用的32粒度,也就是一个wave填充32个数据,从Fermi开始就是如此。AMD一直使用64宽度,一个wave CU单元能够填充64个数据。
在移动GPU上,ARM一直都在使用4宽度的填充粒度,这实际上也是一个效率、功耗和面积平衡的问题,粒度越小则GPU使用效率越高,因为多个命令可以被拆分为小的粒度同时执行,反之如果是大量较小需求的命令则可能不太好拼接成一个任务,但是粒度越小则要求更多控制和逻辑单元,比如单个32宽度的线程只需要1个控制单元,而8个4宽度的线程就需要8个控制单元。
控制单元也需要占据面积、耗费晶体管和功耗,因此在这里如何平衡就显得非常重要。ARM之前使用的是4粒度,面向的是早期计算要求较低、数据较少的时代,但是随着移动计算的增强,更多计算任务的要求,4粒度显得有些过于细碎了。虽然ARM之前认为线程粒度越小可能会更好的降低线程发散并减少GPU内部停滞的可能性,但时过境迁,如果运算中有大量的分支代码,那么由于线程发散而限制的计算单元就没有什么价值了。
因此,在Mali G76上,ARM改用了更宽的8粒度填充,这使得ARM减少了所需要的控制和逻辑单元,使得逻辑单元对比EU单元的比例大幅度下降。根据ARM数据,ALU吞吐量翻倍的情况下,EU模块的规模相比之前4宽度时只增加了28%。
由于EU模块计算规模翻倍,相应的纹理和像素单元、缓存等都有一定的增加。其中纹理、ALU和像素单元的比例和之前一致,缓存的容量和通道数量都翻倍。性能方面,由于各种资源翻倍,因此实际性能也应该是类似的比例。数据显示,Mali G76的性能达到Mali G72的2倍,只需要132%的芯片面积,能耗比相应提升了50%。
具体到产品来看,麒麟980的GPU部分相比麒麟970而言,由于架构革新,因此其计算资源相对扩充了66%,这还不算新架构计算效能的改善。频率方面,麒麟980的GPU频率为720MHz,在7nm工艺下这个数据并不算高,要知道前代麒麟970的GPU频率都高达747MHz。华为数据显示,麒麟980的GPU性能相比麒麟970提升了46%,能耗比大幅度提升了178%。
▲麒麟980相比麒麟970,在GPU性能上的提升。
内存、ISP和NPU:大幅度提升 除了CPU和GPU信息外,华为在发布会上还详细介绍了其他子系统的性能提升。
在内存部分,麒麟980改用了全新的LPDDR4X内存控制器,支持2133MHz的内存,带宽增加了13%,并且延迟大幅度降低。华为数据显示,麒麟980的延迟为138ns,骁龙845则为176ns。不过这个数据可能需要进一步查证,因为之前的麒麟970也是138ns,甚至三星Exynos 9810更低,只有78ns。
▲麒麟980是全球首个支持LPDDR4X 2133的处理器。
▲华为给出的麒麟980相关游戏性能对比和功耗对比
在摄影方面,麒麟980采用了新的ISP单元,新单元的图像处理吞吐量提升了46%,支持更高分辨率的摄像头,另外一个重要的改进在于加入了HDR10的图像处理流水线。此外,另一个重要改善是加入了多通道降噪技术,基于时间帧进行画面降噪处理,效果更为出色一些。在视频编码方面,视频捕捉延迟降低了33%。
▲麒麟980的双ISP性能大幅度提升
人工智能是华为之前在麒麟970发布会上的重点,在麒麟980上华为也加强了这一部分。麒麟980采用了新的双核NPU,相比前代产品性能翻倍。华为表示,新的处理器的推断能力为4500次/每分钟,之前的产品为2030次,对比骁龙845则是2371次,苹果A11则为1458次,麒麟980的性能是最出色的。
▲华为在发布会上也和骁龙845做了有关游戏性能的对比
全球最快4G,5G箭在弦上 除了上述性能方面的内容之外,在通讯能力上,麒麟980也非常有实力。麒麟980采用的是目前全球领先的支持CAT.21的4G基带,其能够支持4×4 MIMO、1.4Gbps下载速率以及2×2 MIMO、200Mbps的上传速度,同时支持5CA、256QAM、3x载波聚合。它在基带技术参数上几乎无出其右者,只有等待5G时代才能超越这款基带的速度了。
▲麒麟980的基带技术规格堪称全球最强,因此华为宣称其为4.5G LTE基带。
无独有偶,华为在5G时代的布局也已经逐渐展现。麒麟980可以通过外挂华为Balong 5000基带实现对5G网络的支持,不过华为目前尚未发布有关Balong 5000基带的参数和细节,只不过宣称会在明年推出相关产品。从产品和市场角度考虑,第一代5G产品多有试水和抢占市场的意味,实际5G全面铺开应该还需要一段时间,据业内猜测华为极有可能在明年推出集成了5G基带的
麒麟芯片,名称有可能被称为麒麟990。
▲全球首个支持CAT. 21的基带,下载速度最高1.4Gbps。
▲华为发布了全球首个5G基带,并展示了麒麟980和Balong 5000的外挂方案。
在Wi-Fi方面,麒麟980这次放弃了传统的博通方案,转而采用了自研的Hi1103 Wi-Fi模块,支持802.11ac标准、2×2 MIMO和160MHz频宽,速度高达1732Mbps。GPS定位方面华为也为麒麟980加入了L1 L5双频GPS定位,L5频段下定位精度可提升10倍。
华为登顶世界的一小步? 从华为近几年的产品发展脉络来看,在移动SoC的发展上华为也经历了多年的艰辛和布局。从早期的“祖传”海思K3V2,由于新品发布较慢、研发进度赶不上等问题,被多代华为手机使用,更是有用户吐槽坚决不买“K3V2”。好在随后进入麒麟时代后,从一炮而红的麒麟950,到首个AI移动SoC麒麟970,再到今天的麒麟980,可以说华为终于走过了一个完整的芯片研发企业需要经历的漫长积累成长期,成为了全球顶尖的移动SoC企业。
从发布的消息来看,麒麟980所代表的CPU、GPU、通讯、ISP等各个方面的技术,无一不是全球领先水平,除了视频编解码方面没有支持4K@60Hz的小遗憾外,其余各个方面已经和高通站在一个水平线上,甚至部分性能还有超越。那么,人们不禁要问:华为的下一步是什么?继续使用ARM公版架构还是接受指令及授权,重新研发处理器?GPU方面又应该如何操作呢?这些答案目前无人可以回答,但是华为应该早有布局。在产业发展的道路上,向前走不回头,继续一步步努力,继续向着领航者的方向大步前进。
花粉社群VIP加油站
恭喜你,领取到一张面值 0 元的优惠券
只有购买全集内容 0.00 元,才可抵扣使用。
有效期截止于:2020-12-12 23:59
是否立即使用?