热门关键词：

新闻动态

Arm微架构的Cortex-X系列处理器详解

时间: 2023-08-28 07:13:49 来源: 安博体育电竞官网登录浏览量: 155 次

　　市场推出的Cortex-A系列处理器。Cortex-A系列处理器每年迭代，性能和能效不断的提高，是一款非常成功的。但是，Arm并不满足于Cortex-A系列每年的架构小幅度升级，又推出了X计划，也就是Cortex-X产品线。Cortex-X系列处理器采用了激进的架构设计，大幅度提升移动处理器的性能（俗称超级大核），本文将重点介绍Arm的Cortex-X系列产品。

　　Cortex-X计划起源可以追溯到2016年，当时Arm推出了一个新的客户Licence叫做“Build on Cortex”，允许用户请Arm基于Cortex核心做一些定制优化，如能增加或者减少Cache数量等，客户如高通公司一直是该计划的使用方，用于开发和迭代每年的Kyro系列处理器。到了2020年，Arm公司正式公开宣布推出Cortex-X这一全新的高性能处理器设计计划。Cortex-X计划的目标是为高端移动平台、云服务场景、边缘计算和高性能计算设备提供更快、更强大的处理器核心。

　　Cortex-X系列定制处理器计划，相比2016年的定制方案要更加深入，Cortex-X系列处理器的目标是给用户更好的提供足够强大性能的核心，在此计划下可以早期参与Arm的Cortex处理器架构设计，并基于 Cortex-X 核心进行定制优化，以适应自己的产品需求。但是从产品的表现看，由于Arm每年都在迭代Cortex-X系列处理器（2023，第四年，预计会更新Cortex-X4），迭代速度和周期都非常快，芯片厂商并没有针对X系列处理器特殊定制微架构，而是通过搭配不一样的尺寸的缓存，设计出面向不同价位段的产品。

　　Cortex-X系列的出现，和市场之间的竞争日益激烈，芯片厂商有较强需求相关。市场上，苹果公司坚持自己研发A系列处理器，苹果的A系列处理器是专为iPhone和iPad设备设计的自研处理器，基于Arm指令集，苹果自己设计并优化了微架构。从2010年推出的A4处理器开始推出第一款量产产品，当前苹果A系列处理器已发展到A16（2022年）。A系列处理器一直采用较为激进的微架构设计，通过强大的计算能力领先行业。最新A16还是保持Armv8指令集，没有升级到Armv9指令集，最后我们会简单对比下Cortex-X系列和苹果的A系列处理器的差异。

　　2020年5月，Arm发布了基于Armv8.2架构的最后一款处理器Cortex-A78，同时还发布了一颗性能更强大的Cortex-X1处理器。Cortex-X1 处理器比之前的 Cortex-A77 提升了 30% 的性能，由于采用大缓存的设计架构，还提升了 23% 的芯片能效。简单总结下，X1提供了更强的性能，整体更优秀的能效，但是极限功耗高于Cortex-A78。

　　Cortex-X1性能强大，能效有明显改善，但是由于增大了缓存和处理单元，使得芯片的整体面积增大不少，厂商往往出于成本考虑，一般在处理器中只会放置一颗Cortex-X系列处理器来提升单线程的峰值性能。从Cortex-X1出现后，市场上的旗舰处理器架构发生了变化，逐步从4+4架构，演变成有一个超级大核心的1+3+4架构。

　　下图是一个典型示意图，在5nm工艺下如果仅升级到A78，性能提升20%，面积能够大大减少15%；在5nm工艺下升级到1个X1+3个A78，L3增大，峰值性能能提高30%，但是面积要增加15%，一来一回差异30%芯片面积，这样看来，旗舰芯片要涨价也情有可原了。

　　我们看一下Cortex-X1的微架构细节，相比A78，Cortex-X1具体有以下提升：

　　7、执行单元整数和存储部分变化不大，浮点单元相比A78提供了2倍的NEON单元，可以同时提供4个128bit运算能力；

　　8、存储单元通路虽然没有变化，但是其LoadStore的缓冲数量增加了33%。

　　可惜，Cortex-X1的命运可谓生不逢时，2020年采用Cortex-X1的典型旗舰处理器有三星的Exynos 2100和高通的Snapdragon 888，这两款处理器都搭载了三星的5nm工艺（5LPE），这一次三星工艺翻车了，架构的提升得不到工艺的补偿，导致这两款处理器的性能和功耗的表现都不是很好。目前（2023年）市面上还活跃着不少采用A78处理器架构的芯片，如MTK的天玑8100、8200等处理器，但是已经鲜少看到搭载Cortex-X1处理器的芯片了。

　　第一代的Cortex-X1由于搭配工艺的问题造成整体不佳的表现并没有掩埋Cortex-X系列微架构的成功，Arm计划将Cortex-X系列发扬光大，后续我们正真看到的也是每年一更新的快速迭代节奏。如此快速的更新节奏，芯片厂商也很难深度定制，后续各大厂商发布的几款采用Cortex-X系列处理器的产品，还是采用了Arm的公版架构，基于产品的价位段，在Cache容量上做一些差异化的配置。

　　从上图中可见，Arm对于两个系列的策略不一样，Cortex-A系列主打均衡能效并小幅度改善性能，Cortex-X2相比Cortex-X1在性能上有更明显的提升，进一步拉开了A系列和X系列的性能差距，由此可见Cortex-X系列的目标是推进Arm核心架构的算力提升和突破。

　　从互联网上能够找到Cortex-X2的微架构框图，我们大家可以此对比Cortex-X2和Cortex-X1的微架构差异，并分析影响性能提升的因素。Cortex-X2相比Cortex-X1，在微架构上有以下变化：

　　再来看看具体性能数据，Arm宣称Cortex-X2相比Cortex-X1在整数性能上提升了16%，在ML能力上提升了2倍。回顾一下A710，Arm宣称的数据是相比A78提升了10%的整数性能。从能效曲线上看，Cortex-X2的最大性能和功耗都有增加，能效在低频率区间和Cortex-X1差异不大，在中高频率区间相比Cortex-X1有改善。由于极限功耗持续增加，对于散热能力和发热策略改善提出了更大的诉求和压力。

　　2021年，第一代搭载了Cortex-X2的处理器高通8Gen1，由于采用了三星4nm LPX工艺，性能功耗的表现不是很理想，后续高通将工艺切换到台积电4nm工艺，在2022年推出了同样设计的8+Gen1处理器，宣称CPU功耗降低了30%，这才发挥出了Cortex-X2的实力，目前有多部热门手机搭载，当前也是Cortex-X系列新产品中卖的最好一代。

　　2022年6月，市场上还在关注升级新工艺的Cortex-X2系列处理器产品时，Arm发布了当年的新品Cortex-X3，Cortex-X3的代号是Makalu-ELP，和同期Coretex-A715的代号Makalu保持一致。2021年的Cortex-X2肩负着升级Armv9指令集的任务，在微架构上的修改上相比第一代并不是很多。新一代的Cortex-X3在微架构上的升级和变化要更多一些，后续我们会详细分析。性能上，Arm宣称Cortex-X3在性能相比上一代IPC提升11%，综合性能有22%的提升（包含工艺的提升）。

　　从Cortex-X2开始，X系列处理器就不再支持32bit应用，这一代Arm继续针对64bit进行微架构的优化，通过剔除和优化一些陈旧的32bit兼容设计，逐步提升64bit应用程序的执行效率。

　　1、MOP Cache尺寸变化。随着半导体工艺的持续演进，接下来的3nm新工艺将继续缩小半导体器件的尺寸，但是，在半导体中SRAM的尺寸并没有随器件尺寸缩小而同步缩小。如何减少SRAM的占用，是对先进工艺设计提出的一个考验。在Cortex-X3的前端设计中，Arm将L0的MOP Cacha的SRAM从上一代的3K减少到1.5K，推测也还是为了减少未来在先进工艺中SRAM的占比。同时，Arm提出通过优化Cache的填充算法，来做到尽量不影响性能。记得MOP Cache在A77引入时就有讨论过，1.5K的容量就能够达到85%的命中率，增加容量带来的边际效益也增加，所以增大Cache带来的效果提升会慢慢的小，所以这次Arm将Cortex-X3的MOP Cache降低到1.5K（同期的A715则是取消了MOP Cache）。

　　4、Arm继续提升Cortex-X3的分支预测能力，L1 BTB从64提升到96，L2 BTB从16384提升到24576。分支预测单元通过解耦合设计，和Fetch形成两条核心指令通路，大幅度的提高同步执行效率，若发生了分支错误，能够迅速从BTB缓冲中拿到需要的指令，进行快速切换。通过这一些优化，Arm宣称平均分支预测延迟周期数减少了12.2%，整体执行流程中Stall占比降低了3%；

　　6、流水线的优化，Cortex-X3继续优化了流水线级，主要是优化了MOP Cache的读取周期；

　　7、执行单元上，这次Cortex-X3大幅度提升了整型ALU的数量，从4个提升到6个，是一个比较大的变化，整体从2个branch+2个ALU变化为2个branch+4个ALU，主要是提升了整型性能；

　　8、访存单元上，因为提升了ALU的数量，相应的整型读取带宽也从24提升到了32，并且增加了两个额外的数据预取模块。

　　上面是Cortex-X3的微架构框图，我们把X1至X3放在同一张表中对比：

　　Cortex-X系列处理器通过三代的迭代，一直在升级微架构提升性能，其单核心有明显提升，已经在拉近苹果A系列处理器和Intel台式机处理器的差距。图中对比了不同处理器的单核心的性能，能够正常的看到Cortex-X3相比Cortex-X2有进一步的提升，距苹果的A15处理器还有一些差距。目前我还没找到苹果A15处理器的微架构，但是有找到2020年A14处理器大核心（Firestorm）的微架构，下面通过表格做了一个对比。

　　从Cortex-X系列和苹果A14的对比能够准确的看出，苹果在设计A系列处理器时对于微架构的调整更加激进，采用了更大的L1、L2缓存，Decoder数量更多，而ROB缓冲的尺寸几乎是Cortex-X系列的一倍，这也对于指令重排序的效率和算法优化能力提出了更高的要求。

　　虽然Cortex-X系列每年迭代，相比苹果的A系列激进的设计，目前还存在一定的差距。但是随着Cortex-X系列处理器的每年迭代更新，我们也希望看到在微架构能力上打平甚至超过竞品的那一天。

　　由于苹果在A系列处理器采用大缓存大尺寸设计，在智能手机产品中一般是放置两颗大核心，采用2+4的架构。采用Cortex-X系列处理器的安卓手机，一般都会采用八核心的架构，例如最新的高通8Gen2处理器，采用1个Cortex-X3+2个A715+2个A710+3个A510的组合架构，提供了5个大核心的算力，在多核心算力上相比6核心有多2个核心的优势，某些特定的程度上弥补了多核心的差距。

　　距2023年中Arm发布Cortex-X4处理器的时间不远了，下一代的Cortex-X4处理器的代号叫做Hunter-ELP，期望这一代的“猎人”能给我们大家带来更多的惊喜，新的架构改了啥地方，有多少性能提升，我也会第一时间关注和分享。

　　Arm公司通过三年时间迭代Cortex-X系列处理器，每年的性能上都有两位数的提升，切实让我们消费者使用上了更快更强的处理器和产品，这半年来，采用Cortex-X2和Cortex-X3系列架构的高通8+Gen1、8Gen2、MTK的天玑9200等处理器的市场口碑都很不错。

　　此外，高通的8Gen2处理器还第一次打破了传统4颗大核心的架构，提供了1+4+3的5颗大核心配置组合。期望未来的产品不仅能看到Arm的最新架构，而且能够正常的看到更多有意思的CPU核心架构组合，若能在一个处理器中放置多颗Cortex-X核心，相信基于Cortex-X系列的Arm处理器也能挑战苹果 A系列处理器综合性能。

　　声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容图片侵权或者别的问题，请联系本站作侵删。侵权投诉