CPU需要HBM吗？

发布日期：2024-11-23 09:36 点击次数：81

（原标题：CPU需要HBM吗？）

若是您但愿不错不息碰头，迎接标星保藏哦~

起原：内容编译自nextplatform，谢谢。

英特尔是第一家在 CPU 封装中添加 HBM 堆叠 DRAM 内存的主要 CPU 制造商，其推出的处理器是“Sapphire Rapids”Max 系列 Xeon SP 处理器。但跟着“Granite Rapids”Xeon 6 的推出，英特尔撤销了使用 HBM 内存，转而弃取它但愿成为更主流的 MCR DDR5 主内存，该内存具有多路复用等第，可将带宽提高近 2 倍于惯例 DDR5 内存。

英特尔为 Sapphire Rapids 添加 HBM 内存有其原因。主要原因是培植百亿亿亿次级“Aurora”搀和 CPU-GPU 超等计较机的 CPU 性能，该超等计较机是英特尔在惠普企业的匡助下为阿贡国度履行室打造的。Aurora 机器领有 21,248 个 Xeon SP Max 系列 CPU，封装在 10,624 个节点中，此外还领有总共 63,744 个英特尔“Ponte Vecchio”Max 系列 GPU。（即单个节点中两个 CPU 搭配六个 GPU，这险些是任何东谈主皆不错装入 Cray EX 滑轨空间的全部。）

向 CPU 添加 HBM 内存的另一个原因是但愿其他 HPC 中心能够发现，由于尚未将其诈欺体式移植到 GPU，因此只可使用 CPU - 或者即使移植了也无法在责任负载上得回细腻的性能 - 领有更多内存带宽的 CPU - 梗概是等闲 DDR5 内存的 4 到 5 倍 - 这将权贵提高带宽受限诈欺体式的性能，而无需将这些代码移植到 GPU。

咱们觉得将 HBM 安设在 CPU 上的思法是合理的。

除了 Aurora 除外，还有一些值得防御的机器使用这种内存，包括2022 年 9 月在洛斯阿拉莫斯国度履行室安设的“Crossroads”ATS-3 全 CPU 集群。Crossroads总共有 11,880 个 Intel Xeon SP-9480 Platinum Max 处理器，其中有 56 个内核，运行频率为 1.9 GHz，总共有 660,800 个内核，在 FP64 精度下可提供 40.18 teraflops 的峰值表面性能，功率为 6.28 兆瓦。

关联词，正如咱们所说，Granite Rapids Xeon 6 处理器莫得配备更大 P 核的 HBM 变体，这为 AMD 推出 HBM 前端 CPU 打开了大门，这是传奇中的 Instinct MI300 系列计较引擎的“Antares-C”变体。

“Antares” MI300X 具有八个 GPU 芯片，就软件而言，其外不雅和嗅觉就像单个 GPU。本周在 SC24 超等计较契机议上亮相的劳伦斯利弗莫尔国度履行室“El Capitan”系统中使用的“Antares-A” MI300A 具有六个 GPU 芯片和三个八核“Genoa”芯片，总共 24 个内核。（每个芯片八个内核。）本周在 SC24 会议和拉斯维加斯的微软 Ignite 活动上皆晓谕了 MI300C，MI300 封装全皆填充了 Genoa 芯片 - 即两列六个芯片中有十几个芯片 - 总共可产生 96 个 Genoa 内核，咱们议论其运行频率与 El Capitan 中使用的 MI300A 混所有较引擎上使用的 Zen 4 内核调换，为 1.9 GHz。在单核活跃的情况下，这些内核在 Turbo 形态下最高可达到 3.7 GHz。趁便说一下，MI300A 上的 GPU 芯片峰值速率为 2.1 GHz。

不外，这款设立并非以 MI300C 的称号出售，而是 Epyc CPU 居品线中的一款时代居品，被称为 Epyc 9V64H，与英特尔的 Xeon SP Max 系列 CPU 相通，明确针对 HPC 责任负载。也即是说，该设立插入用于 MI300X 和 MI300A 设立的 SH5 插槽，而不是用于 Epyc 9004（Genoa）和 9005（Turin）系列的 SP5 插槽。

值得防御的是，AMD 偏执 MI300C 设立的首个客户 Microsoft Azure 并未弃取基于较新的 Turin Zen 5 中枢创建计较引擎的变体。MI300C 的责任粗略是在 AMD 初始为 El Capitan 制造搀和 CPU-GPU 芯倏地完成的，AMD 无疑不思清楚 Turin 的奥密，不然 Lawrence Livermore 可能会条目 MI355A 将经由弯曲的 Antares GPU 与 El Capitan 的 Turin CPU 配对。

（那会很意旨，不是吗？）

话虽如斯，关于 AMD 来说，基于基于 Zen 5c 内核的 Turin 芯片打造 MI355A 或 Epyc 9V65H 彰着不会是一个很大的工程挑战。Turin X86 CPU 于 10 月发布，它们提供以 3 纳米工艺蚀刻的八核 Turin 芯片，使每个插槽的芯片数目增多了 33%，因此中枢数目从 Genoa 的 96 个增多到 Turin 顶级部件的 128 个，增多了 33%。虽然，Turin 芯片和 MI300 SH5 插槽的布局刻下可能与咱们的右侧一致，但表面上 AMD 不错通过将 16 个 X86 芯片成列成两列来快速拼装出具有 128 个内核的 MI355C，就像它在本体的 Epyc 9006 系列中仍是作念的那样。信得过的问题是，为 MI300 系列分区的新 I/O 芯片是否不错映射到 Turin 芯片。

不管怎样，咱们频频饶有真义地离题询查。

蹙迫的是，Epyc 9V64H 领有 128 GB 的 HBM3 内存，峰值时钟速率为 5.2 GHz，可提供所有 5.3 TB/秒的峰值内存带宽。比较之下，使用 4.8 GHz DDR5 内存的等闲 Genoa SP5 CPU 插槽可在十几个 DDR5 内存通谈中提供 460.8 GB/秒的带宽。因此，在调换的 96 个 Genoa 计较中枢中，内存带宽提高了 11.3 倍。

趁便说一句，2022 年 11 月推出的 Xeon SP Max 系列 CPU有四个 HBM2E 内存堆栈，总容量为 64 GB，内存总带宽跨越 1 TB/秒。AMD 提供的内核数目增多了 71%，内存容量增多了 2 倍，内存带宽梗概是配备 HBM 的英特尔 CPU 的 5 倍。

玄妙之处在于，微软正在将 Epyc 9V64H 处理器放入Azure 云上的四插槽 HBv5 实例中，而况设立看起来内核和内存中的一些东西仍是从其峰值表面极限略略回退了少量，而其他东西仍是被调高了。

El Capitan 系统使用 Infinity Fabric 将四个 MI300A 单位交叉耦合到分享内存结构中，以便其搀和 CPU-GPU 中枢全部分享 512 GB 的 HBM3 内存，而且看起来微软使用的是调换的架构：

据咱们所知，为惠普企业 (HPE) 制造系统板的东谈主也为微软 Azure 制造了系统板 - 以致可能是 HPE 为这些 Azure HBv5 实例以及它们背后的通盘工作器节点制造了系统板。

MI300C 使用的四路工作器卡（呃，Epyc 9V64H，请饶恕咱们）有四个 Infinity Fabric 端口，可交叉集结四个 SH5 插槽，内存结构带宽为 128 GB/秒，然后是四个挂在每个节点上的 PCI-Express 5.0 x16 插槽。微软暗示，这是迄今划定任何 AMD Epyc 平台的 Infinity Fabric 带宽的两倍。

不管怎样，蹙迫的事情（亦然意旨的事情）是，AMD 使用 SH5 插槽为其 GPU 式计较引擎制作了四路分享内存设立，但其本体 CPU 设立仍然最多只可竣事双向分享内存设立。关联词，若是您思要一台 AMD 四路机器，那么 El Capitan 和 Microsoft iron 即是可能的。咱们觉得，AMD 应该制造四路工作器，以在高端内存数据库和分析商场上与 IBM 和英特尔一较上下，这为这项责任奠定了基础。

为了应答 HPC 畛域需要高内存带宽的责任负载，Microsoft Azure 一直在其 HBv3 实例中使用64 核“Milan-X”Epyc 7V73X CPU，在其 HBv4 实例中使用96 核“Genoa-X”9V84X CPU。这些是 AMD 为 Microsoft Azure 创建的 Milan-X 和 Genoa-X 芯片的至极变体，您会紧记，X 变体具有 3D V-Cache，可将其 L3 缓存增多三倍，并在带宽受限诈欺体式上将其性能提高约 50% 至 80%，这在 HPC 模拟和建模责任负载中很常见。

转向 HBM 内存会让这些 3D V-Cache 数字水火不容，虽然，部分原因是 MI300C 复合体在这些 X86 中枢块下方有“Infinity Cache”，它充任集结中枢和外部 HBM 内存的超高速中间东谈主。咱们之前说过，刻下再说一遍：一朝价钱饱胀低廉，通盘芯片皆应该有 3D V-Cache，即使仅仅为了在计较复合体上为其他东西留出更多空间并收缩中枢上的 L3 缓存区域。

以下是微软制作的一张意旨的图表，展示了将 96 核 Genoa 计较空洞体移动到 MI300C 所带来的带宽上风：

本周，在 SC24 大会上，当咱们与劳伦斯利弗莫尔国度履行室利弗莫尔计较公司首席时代官 Bronis de Supinski 驳倒 El Capitan 机器时，他向咱们评叙述，CPU 内核“得回的带宽跨越了它们所能驱动的带宽”。这也许不错阐明注解为什么更多 CPU 莫得 HBM 内存。

若是咱们以 128 GB HBM3 内存中每个 MI300 系列 SH5 插槽 5.2 TB/秒的速率取值，并将四个插槽放在一齐，咱们将在四个 SH5 插槽上得回 20.8 TB/秒的总带宽。多年来，在咱们估量过的大多数机器上，STREAM Triad 基准测试提供的握续内存带宽约为单个设立峰值表面带宽的 80%。因此，在 STREAM Triad 上握续的带宽为 16.6 TB/秒。不错详情的是，Infinity Fabric 的 NUMA 特点有其本身的支拨，很难说这个支拨到底有多大。在 CPU 系统上，四路 NUMA 设立提供的性能约为表面 4 倍的 3.65 倍。（在 CPU 之间的流畅数增多一倍的双向插槽上，您说的是 1.95 倍，而峰值表面为 2 倍。）

但在 Microsoft Azure 在其 HBv5 实例上运行的 STREAM Triad 测试中，握续内存带宽为 6.9 TB/秒，远低于峰值团员带宽 20.8 TB/秒。琢磨到 CPU 内核可能无法像具有多数并行性的多数 GPU 内核那样驱动高带宽，也许有必要缩短 HBM 内存子系统的速率以匹配 CPU 不错和不行作念的事情。这是一个奇怪的风景，咱们已致电 AMD 和 Microsoft，以匡助咱们更好地知道 STREAM Triad 成果比咱们字据 NUMA 支拨和昔时在独处设立上进行的 STREAM 测试成果所预期的要小 2.2 倍的情况。

话虽如斯，四路工作器 6.9 TB/秒的速率远远跨越 Azure 用于培植存在内存带宽问题的 HPC 诈欺体式性能的其他双插槽工作器。（咱们亦然。咱们不作念评判。）

HBv5 实例使系统中 512 GB HBM3 内存中的 400 GB 到 450 GB 可供 HPC 诈欺体式使用。在这个范围的尖端，平均每个中枢 3.5 GB，这比 Sapphire Rapids HBM 设立的每个中枢略多 1 GB 要好得多。Azure 上的 HBv5 实例每个中枢最多不错有 9 GB 的内存，因为每个中枢的内存是用户可设立的。在机器上的 384 个中枢中，有 352 个可供实例上运行的诈欺体式使用。62 GB 到 112 GB 的 HBM3 内存和 32 个中枢被分派给 HBv5 实例中的支拨。（奇怪的是为什么这个捏造机科罚体式和其他支拨莫得像 Amazon Web Services 使用“Nitro”NIC 那样卸载到 DPU 上，而谷歌正试图使用“Mount Evans”NIC 来作念到这少量。

HBv5 实例已禁用 SMT 以提高性能，这亦然一个单佃户实例。该实例有一个 800 Gb/秒的 Quantum 2 InfiniBand 端口，该端口被诀别为四个捏造 200 Gb/秒端口，每个插槽一个。这些 InfiniBand NIC 用于将节点集会在一齐以分享责任，而况使用Azure VMSS Flex（捏造机范畴集的缩写），其中的“Flex”暗示它格外纯真，因为它不错将捏造机漫衍在区域或可用区域的故障域中，微软暗示它不错“将 MPI 责任负载延长到数十万个 HBM 驱动的 CPU 中枢”。

这意味着微软仍是在各个地区安设了数千台四核 CPU 工作器，以便能够竣事这一观念。这些系统还具有基于以太网的 Azure Boost 网罗接口卡，可为 HBv5 实例下的机器提供 160 Gb/秒的集结。该机用具有 14 TB 的 NVM-Express 闪存，不错以 50 GB/秒的速率读取数据，以 30 GB/秒的速率写入数据。

HBv5 实例刻下处于预览阶段，尚不明晰何时可用。MI300C（呃，Epyc 9V64H）刻下仅通过 Microsoft 提供，彰着是与 Microsoft 密切互助设备的，Microsoft 但愿在 Azure 上运行更多 HPC 代码。关于很多 HPC 客户来说，领有不错在不需要移植代码的 CPU 上提供 GPU 级内存带宽的硬件无疑是从腹地到云表的一大助力。

尽管如斯，咱们觉得若是 OEM 和 ODM 能够得回 MI300C 那就太好了。也许 MI355C 或 MI400C 不错竣事这少量。

https://www.nextplatform.com/2024/11/22/microsoft-is-first-to-get-hbm-juiced-amd-cpus/

半导体极品公众号推选

专注半导体畛域更多原创内容

关怀巨匠半导体产业动向与趋势

*免责声明：本文由作家原创。著述内容系作家个东谈主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或撑握，若是有任何异议，迎接有关半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第3955期内容，迎接关怀。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

心爱咱们的内容就点“在看”分享给小伙伴哦

让建站和SEO变得简单

CPU需要HBM吗？

热点资讯

相关资讯