英特尔代表取笑用于未来AI和HPC应用的新PonteVecchio计算GPU

欧永勤
导读 在HotChips34期间,英特尔再次详细介绍了其在SapphireRapidsHBM服务器平台上运行的PonteVecchioGPU。在英特尔院士兼首席GPU计算架构师HongJ

在HotChips34期间,英特尔再次详细介绍了其在SapphireRapidsHBM服务器平台上运行的PonteVecchioGPU。在英特尔院士兼首席GPU计算架构师HongJiang的演讲中,我们从蓝队获得了有关即将到来的服务器强国的更多详细信息。PonteVecchioGPU具有三种配置,从单一OAM到配备XeLinks的x4子系统,可以单独运行,也可以使用双插槽SapphireRapids平台。

OAM支持4GPU和8GPU平台的all-to-all拓扑。补充整个平台的是英特尔的oneAPI软件堆栈,它是一个零级API,提供低级硬件接口以支持跨架构编程。oneAPI的一些主要功能包括:

oneAPI和其他工具与加速器设备的接口

精细的增益控制和低延迟加速器功能

多线程设计

对于GPU,作为驱动程序的一部分提供

因此,在性能指标方面,2-StackPonteVecchioGPU配置(如单一OAM上的配置)能够提供高达52TFLOP的FP64/FP32计算、419TFLOP的TF32(XMXFloat32)、839TFLOPBF16/FP16和1678TFLOPs的INT8马力。

英特尔还详细说明了其最大缓存大小和每个缓存提供的峰值带宽。PonteVecchioGPU上的寄存器文件大小为64MB,提供419TB/s的带宽,L1缓存也为64MB,提供105TB/s(4:1),L2缓存为408MB并提供13TB/s带宽(8:1),而HBM内存池高达128GB并提供4.2TB/s带宽(4:1)。PonteVecchio中有一系列计算效率技术,例如:

英特尔解释说,更大的二级缓存可以为2D-FFT案例和DNN案例等工作负载带来巨大的收益。显示了完整PonteVecchioGPU与配置为80MB和32MB的模块之间的一些性能比较。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!