NVIDIAGraceCPU详细信72个ArmV9.0内核

2022-08-24 11:25:21 贡初峰

导读 NVIDIA在HotChips34期间透露了其GraceCPU、OrinSOC和NVLINK芯片互连的新细节。NVIDIA的GraceCPU打破常规，每个芯片配备72个Armv9 0内核、11

NVIDIA在HotChips34期间透露了其GraceCPU、OrinSOC和NVLINK芯片互连的新细节。NVIDIA的GraceCPU打破常规，每个芯片配备72个Armv9.0内核、117MB缓存、68个第5通道，全部在台积电4N工艺节点上NVIDIA在GTC2022上首次宣布了其GraceCPU和相应的Superchip设计。GraceCPU是NVIDIA首款基于定制Arm架构的处理器，将瞄准服务器/HPC细分市场。该CPU有两种Superchip配置，一个是带有两个GraceCPU的GraceSuperchip模块，一个是带有一个连接到HopperH100GPU的GraceCPU的Grace+HopperSuperchip。

NVIDIAGraceCPU详细信息：72个ArmV9.0内核、117MB缓存、68个PCIeGen5通道、TSMC4N工艺和500WTDP2

Grace的一些主要亮点包括：

适用于HPC和云计算的高性能CPU

具有多达144个Armv9CPU内核的超级芯片设计

全球首款带ECC内存的LPDDR5x，1TB/s总带宽

SPECrate2017_int_base超过740(估计)

900GB/s相干接口，比PCIeGen5快7倍

2倍于基于DIMM的解决方案的封装密度

2倍于当今领先CPU的每瓦性能

运行所有NVIDIA软件堆栈和平台，包括RTX、HPC、AI和Omniverse

作为NVIDIA的第一款服务器CPU，Grace具有72个Armv9.0内核，支持SVE2和各种虚拟化扩展，例如嵌套虚拟化和S-EL2。CPU在台积电的4N工艺节点上制造，这是5nm工艺节点的优化版本，专为NVIDIA制造。

NVIDIAGraceCPU详细信息：72个ArmV9.0内核、117MB缓存、68个PCIeGen5通道、TSMC4N工艺和500WTDP3

Grace被设计成成对的，因此，设计中最关键的方面之一是其C2C(芯片到芯片)互连。Grace使用NVLINK实现了这一点，该NVLINK用于制造Superchip，并消除了与典型跨插槽配置相关的所有瓶颈。

C2CNVLINK互连提供900GB/s的原始双向带宽(与Hopper上的GPU到GPUNVLINK开关相同的带宽)，同时以仅1.3pJ/bit的极低功耗接口运行，效率比PCIe协议。

NVIDIAGraceCPU具有可扩展的一致性结构和分布式缓存设计。该芯片具有高达3.225TB/s的二分带宽，可扩展至超过72个内核(Superchip上为144个)，集成117MB的缓存，并支持Arm内存分区和监控(MPAM)。Grace还允许使用共享页表的统一内存架构。两个NVIDIAGrace+Hopper超级芯片可以通过NVSwitch互连在一起，一个超级芯片上的GraceCPU可以直接与另一个芯片上的GPU通信，甚至可以以原生NVLINK速度访问其VRAM。

仔细观察Grace的内存设计，NVIDIA在32个通道上使用了高达512GB的LPDDR5X，提供高达546GB/s的内存带宽。NVIDIA表示，考虑到整体带宽、成本和功率要求时，LPDDR5X提供了最佳价值。对于I/O，您可以获得68个PCIeGen5.0通道，其中四个可用于128GB/s的x16链路，其余两个用于MISC。还有12条相干NVLINK通道与两条Gen5PCIex16链路共享。

至于TDP，NVIDIAGrace(仅限CPU)超级芯片针对单核性能进行了优化，并为144核双芯片配置提供高达1TB/s的内存带宽和500W的TDP。我们已经在之前的文章中对这些数字进行了透视，如下所示：

现在，这并没有太大的性能差异，但我们真正希望看到的是性能指标。GraceSUPERCHIPS的额定功率约为500W，而每个AMDEPYC7763芯片的TDP为280W，因此其中两个约为560W，我们没有增加额外的系统功率，而NVIDIA的500W数字适用于整个GRACESUPERCHIP封装。

NVIDIA表示，其Grace是一款高度专业化的处理器，目标是训练具有超过1万亿个参数的下一代NLP模型等工作负载。当与NVIDIAGPU紧密结合时，基于GraceCPU的系统将提供比当今最先进的基于NVIDIADGX的系统(在x86CPU上运行)快10倍的性能。

看看GraceCPU如何与x86芯片相媲美肯定会很有趣，但到它们发布时，它们将与AMD的Genoa和Intel的SapphireRapidsCPU竞争。如本文所述，NVIDIAGraceCPU计划用于ATOS超级计算机。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！