NVIDIA在HotChips34期间透露了其GraceCPU、OrinSOC和NVLINK芯片互连的新细节。NVIDIA的GraceCPU打破常规,每个芯片配备72个Armv9.0内核、117MB缓存、68个第5通道,全部在台积电4N工艺节点上NVIDIA在GTC2022上首次宣布了其GraceCPU和相应的Superchip设计。GraceCPU是NVIDIA首款基于定制Arm架构的处理器,将瞄准服务器/HPC细分市场。该CPU有两种Superchip配置,一个是带有两个GraceCPU的GraceSuperchip模块,一个是带有一个连接到HopperH100GPU的GraceCPU的Grace+HopperSuperchip。
NVIDIAGraceCPU详细信息:72个ArmV9.0内核、117MB缓存、68个PCIeGen5通道、TSMC4N工艺和500WTDP2
Grace的一些主要亮点包括:
适用于HPC和云计算的高性能CPU
具有多达144个Armv9CPU内核的超级芯片设计
全球首款带ECC内存的LPDDR5x,1TB/s总带宽
SPECrate2017_int_base超过740(估计)
900GB/s相干接口,比PCIeGen5快7倍
2倍于基于DIMM的解决方案的封装密度
2倍于当今领先CPU的每瓦性能
运行所有NVIDIA软件堆栈和平台,包括RTX、HPC、AI和Omniverse
作为NVIDIA的第一款服务器CPU,Grace具有72个Armv9.0内核,支持SVE2和各种虚拟化扩展,例如嵌套虚拟化和S-EL2。CPU在台积电的4N工艺节点上制造,这是5nm工艺节点的优化版本,专为NVIDIA制造。
NVIDIAGraceCPU详细信息:72个ArmV9.0内核、117MB缓存、68个PCIeGen5通道、TSMC4N工艺和500WTDP3
Grace被设计成成对的,因此,设计中最关键的方面之一是其C2C(芯片到芯片)互连。Grace使用NVLINK实现了这一点,该NVLINK用于制造Superchip,并消除了与典型跨插槽配置相关的所有瓶颈。
C2CNVLINK互连提供900GB/s的原始双向带宽(与Hopper上的GPU到GPUNVLINK开关相同的带宽),同时以仅1.3pJ/bit的极低功耗接口运行,效率比PCIe协议。
NVIDIAGraceCPU具有可扩展的一致性结构和分布式缓存设计。该芯片具有高达3.225TB/s的二分带宽,可扩展至超过72个内核(Superchip上为144个),集成117MB的缓存,并支持Arm内存分区和监控(MPAM)。Grace还允许使用共享页表的统一内存架构。两个NVIDIAGrace+Hopper超级芯片可以通过NVSwitch互连在一起,一个超级芯片上的GraceCPU可以直接与另一个芯片上的GPU通信,甚至可以以原生NVLINK速度访问其VRAM。
仔细观察Grace的内存设计,NVIDIA在32个通道上使用了高达512GB的LPDDR5X,提供高达546GB/s的内存带宽。NVIDIA表示,考虑到整体带宽、成本和功率要求时,LPDDR5X提供了最佳价值。对于I/O,您可以获得68个PCIeGen5.0通道,其中四个可用于128GB/s的x16链路,其余两个用于MISC。还有12条相干NVLINK通道与两条Gen5PCIex16链路共享。
至于TDP,NVIDIAGrace(仅限CPU)超级芯片针对单核性能进行了优化,并为144核双芯片配置提供高达1TB/s的内存带宽和500W的TDP。我们已经在之前的文章中对这些数字进行了透视,如下所示:
现在,这并没有太大的性能差异,但我们真正希望看到的是性能指标。GraceSUPERCHIPS的额定功率约为500W,而每个AMDEPYC7763芯片的TDP为280W,因此其中两个约为560W,我们没有增加额外的系统功率,而NVIDIA的500W数字适用于整个GRACESUPERCHIP封装。
NVIDIA表示,其Grace是一款高度专业化的处理器,目标是训练具有超过1万亿个参数的下一代NLP模型等工作负载。当与NVIDIAGPU紧密结合时,基于GraceCPU的系统将提供比当今最先进的基于NVIDIADGX的系统(在x86CPU上运行)快10倍的性能。
看看GraceCPU如何与x86芯片相媲美肯定会很有趣,但到它们发布时,它们将与AMD的Genoa和Intel的SapphireRapidsCPU竞争。如本文所述,NVIDIAGraceCPU计划用于ATOS超级计算机。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!