Armv9 指令集发表后,将助 Arm 架构自行动运算、个人电脑到超算全面与 x86 抗战

Arm 在 10 年前宣布 Armv8 指令集,把 Arm 架构自 32 位元带领到 64 位元的世界,虽然在 Armv8 之前,当时仍能与 Arm 抗衡的 MIPS 更早一步跨入 64 位元指令集领域,不过凭藉着在 iOS 与 Andro

Arm 在 10 年前宣布 Armv8 指令集,把 Arm 架构自 32 位元带领到 64 位元的世界,虽然在 Armv8 之前,当时仍能与 Arm 抗衡的 MIPS 更早一步跨入 64 位元指令集领域,不过凭藉着在 iOS 与 Android 智慧手机的生态圈,一步一步从嵌入式、行动运算跨足 PC 运算、资料中心与超算,而 Arm 藉由 2021 年的 Vision Day 年度活动,一举宣布第二世代的 64 位元指令集 Armv9 ,以 Armv8 指令集为基础进一步革新,也为 Arm 架构生态圈带来更多可能性。

▲ big.LITTLE 颠覆传统 CPU 设计理念

在十年以来, Armv8 架构也历经许多重要的变革,包括在第一世代产品将大小核 big.LITTLE 理念强化,以 Cortex-A53 、 Cortex-A57 划分高效能核心与节能核心的差异,同时 2017 年更进一步将 big.LITTLE 强化,推出能够在单一 Cluster 容纳最多 4 大 4 小的 DynamIQ 技术,而后续补定版本 Armv8.2 更使 Arm 架构具备模拟 x86 的能力,同时为了满足高效能运算需求,还宣布全新的 Arm Neoverse 超算微架构,自 Cortex-A 家族再度针对更高运算需求提供不同的分支,更以能提供 8 大核单一 Cluster 的 Cortex-A78C 微架构。

▲ DynamIQ 使单一 Cluster 纳入更多的核心,提高大小核工作转换的效率

而 Arm 在这 10 年也进一步将架构领域扩展到 10 年前无法想像的境界,除了几乎成为当前手机生态的唯一指令集以外, PC 领域也在苹果 M1 一举展现其能力足以担当重任,而运算领域更从原本以资料管理为主,由富士通 FX64 晶片成为当今全球超算系统王者,颠覆过往由 AMD 与 Intel 的 x86 以及 IBM Power 霸佔的超算市场, NVIDIA 亦在宣布收购 Arm 前就宣布将提供 Arm 架构能够与 CUDA GPU 连接的异构运算。 

Armv9 指令集如同 Arm 一贯的指令集传承,仍能相容当前 Armv8 甚至 Armv7 指令集(但基本上于运算领域近乎全面 64 位元化,相容 Armv7 指令集的意义相对不大),不过 Arm 在昨天的发表活动也提到由于 Armv9 将加入更多的新功能,未来也有特定应用将会应用到这些 Armv9 指令集的新功能。

在 Vision Day 的发表活动上, Armv9 指令集主要的变革在于安全性与针对更複杂层级运算进行强化,安全性部分原本就是近年主要的议题,尤其随着物联网、边际运算需求提高,各家晶片商不无持续强化自硬体到软体的安全防护, Armv9 架构仍将自嵌入式涵盖到消费级与超算领域,自然不能忽视安全性的强化。

照片中提到了Tofu、28Gbps 2 lanes 10 ports、PCIE Gen3 16 lanes,包含了富士通豆腐、富士通a64fx、中央处理器、富士通、电脑

▲ A64FX 展现 Arm 跨足 HPC 领域的可能性

不过更值得注意的是 Armv9 将先前 Arm 与富士通合作的成果 SVE 指令集进行扩张, Armv9 将支援更先进的 SVE2 指令集,使晶片规划能够自原本 128bit 的向量加速扩张到最大 2,048bit ,进一步提升 Armv9 于高阶运算的可能性,这也对于 Armv9 在提供消费级运算设备至超算都能有更显着的提升。

另外在发表会后也提到, Arm 再与未来的準东家 NVIDIA 合作,将使 Armv9 指令集可支援 CUDA GPU 进行加速,对于未来 Arm 架构无论自工作站到超算都会产生明显的影响,毕竟以当前在运算领域的晶片设计,多半是将相同功能的架构规划在同一颗晶片上,而非如智慧手机整合 CPU 、 GPU 与加速器,故纵使 Arm 架构相对传统 x86 容易实现大量 CPU 核心,但在特定领域仍须搭配加速器使用,尤其当前全球的 AI 加速技术以 NVIDIA 的 CUDA GPU 加速为主流大宗, Arm 与 NVIDIA 合作深化 Armv9 对 CUDA 技术的支援是有相当大的意义的。

可预见的是除了崛起的 AMD Epyc 以外,下一代基于 Arm Neoverse 平台与 Armv9 指令集的系统将会在超算带来许多变化,尤其富士通 FX64 一举令外界看到 Arm 架构在超算的潜力,而 Arm 架构的设计弹性又是相对 x86 处理器有优势的地方,单晶片的处理器核心数量、记忆体搭配、通道设计等都可依照平台需求加以客製化,大型服务商像是 Google 、微软、亚马逊等甚至有能力依照需求规划符合需求的客製化 CPU ,凭藉 SVE2 指令集的导入,搭配如 PCIe 5.0 一类的新一代通道技术,甫以 NVIDIA 加持之下使 Arm CPU 与 NVIDIA GPU 的协作模式,应该也会吸引更多超算系统採纳。

照片中提到了U9G269Z5LL 2036、APL1102 339s00833 S、H9HCHNNDB MM L SR NEH,跟苹果公司。有关,包含了苹果、苹果、苹果M1、电脑、iPhone SE

▲ Arm 是苹果少数不敢贸然过河拆桥的长期伙伴

此外,虽然苹果并未列在 Armv9 新闻稿的合作伙伴证言上,且苹果也有多次过河拆桥的前例,但以现况而言,苹果短期内是难以弃捨 Arm 指令集的,因为 CPU 架构与专利错综複杂,固然苹果有能力开发微架构,但作为最基础的指令集难以另起炉灶,尤其苹果宣布将迈向全面 Apple Silicon 的世代,就更难脱离作为基础的 Arm 指令集。

照片中提到了Up to、28-core Intel Xeon、'. .. ..,包含了光、2019苹果全球开发者大会、Pro Display XDR、AMD Vega、电脑

▲ Armv9 指令集或许有助苹果规划超越 Intel Xeon 效能的工作站级 CPU

加入 SVE2 指令集的 Armv9 指令集会对苹果的 Apple Silicon 产生甚么影响也相当值得关注,这也意味着苹果在未来冠上 Pro 的 Mac Pro 工作站产品线能够取得更高的运算性能,毕竟当前的 Apple M1 仍仅达主流级笔电的效能水準,虽然帐面上超越以往合作伙伴 Intel 的数据规格,不过若用于更进一步的工作站等级应用,目前的效能显然不足。

笔者推估,若要用于取代现行的 Mac Pro 产品,苹果势必需要规划一款相近于 Arm 超算平台 Neoverse 层级的高阶 CPU ,否则以当前 Cortex-A 相近层级的架构同时把所有架构进行 SoC 进行规划,可能会重演上一世代骨灰罈造型 Mac Pro 的性能悲剧,此外,虽然苹果已有多年开发 iGPU 设计的经验,但若以工作站的规模,还未有独立 GPU 开发经验的苹果能否解决如专业影像、 3D 内容创作对于高效能 GPU 的问题也令人好奇,或许短时间内可能会寻求外援以独立 GPU 的方式提供视觉相关的效能。

照片中提到了128GB HBM2、******** O、56 teraflops,包含了黑暗、2019苹果全球开发者大会、Pro Display XDR、苹果、电脑

▲若要能与当前的 Mac Pro 用途相近,苹果应该仍会搭配独立 GPU

以 Mac Pro 作为专业工作站的定位,可以自当前世代的设计进行推估,苹果可能未来有两种做法,其一是採取更小的尺寸、更低的能耗达到比当前略高的效能,其二则是在与目前相近的尺寸提供更优秀的效能,不过无论是哪种作法,笔者认为工作站设计带来的空间优势,使苹果会选择规划準伺服器等级的纯 CPU 设计,而非目前苹果 M1 完整机能的 SoC ,并在图形处理以另一颗独立 GPU 实现。

照片中包含了臂服务器2019、显示卡、英伟达、ARM架构、图形处理单元

▲与其期待拥有 CPU 与 GPU 的 AMD 与 Intel 对 NVIDIA GPU 完全敞开大门, NVIDIA 不如携手 Arm 生态链深化异构加速运算

对于整体 Arm 生态圈,笔者认为 Cortex-R 即时处理器与 Cortex-M 嵌入式处理器可藉由强化的安全性、 AI 取得更高的安全性、节能性与 AI 加速;至于运算领域的应用,则能在新架构强化的运算机能与逐年提高的性能,协助 Arm 架构能进一步扩大运算级与超算的涵盖层级,尤其深化与 NVIDIA 的合作关係之下,应该可进一步透过更紧密的异构方式提高执行效率,例如实现更直接的 CPU 与 GPU 多向沟通、记忆体共享等模式,还有与 NVIDIA Mellanox 高速连接网络,比起等待 Intel 或 AMD 愿意对 NVIDIA 敞开大门会更为实际。

原创文章,作者:普拉斯,如若转载,请注明出处:https://www.53moban.com/8723.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息