128台H100如何组集群?

网站首页    128台H100如何组集群?
 
2022年发布的英伟达DGX H100搭载了8个单端口ConnectX-7网卡,支持NDR 400Gb/s带宽,2个可支持IB/以太网络的双端口Bluefield-3 DPUs(200Gb/s)。外观如下图所示。
 

 

DGX H100配有4个QSFP56端口,用于存储网络、In-Band管理网络;此外还有1个用于Remote Host OS管理的10G以太网口、1个用于Remote System Management管理的1G以太网口。

从下图服务器内部网络拓扑来看,配有4个OSFP端口用于计算网络连接(紫色凸出的那4个),蓝色方块为网卡,既可充当网卡又可发挥PCIe Switch扩展功能,成为CPU与GPU之间互联的桥梁。

如果采用英伟达SuperPOD的NVLink集群互联方案,32台H100之间通过外部NVLink交换机互联。服务器内部8个GPU连到4个NVSwitch模块,每个NVSwitch 模块对应4-5个OSFP光模块,共计18个OSFP,OSFP再分别上联到18台外部NVLink交换机。(目前市场上的H100基本上都没配这18个OSFP模块)
本文对NVLink组网方式不展开讨论,重点说说IB组网方式。根据NVIDIA参考设计文件:DGX H100服务器集群中,每32台DGX H100组成一个SU,每4台DGX H100被放置在一个单独的机架上(推算每个机架功率接近40KW),各类交换机则被放置在两个独立机架上。因此,每个SU包含10个机架(8个用于放置服务器、2个用于放置交换机)。计算网络只需要使用到Spine-Leaf两层交换机(Mellanox QM9700,网络拓扑如下图所示。
 

交换机用量:集群中每32台DGX H100构成一个SU(每个SU中有8台Leaf交换机),128台H100服务器集群中有4个SU,以此总共32台Leaf交换机。SU中每个DGX H100都需要与全部8台Leaf交换机有连接,由于每个服务器只有4个用于计算网络连接的800G OSFP端口,在每个端口接800G光模块后,通过拓展端口将1个OSFP端口拓展为2个QSFP端口,实现每台DGX H100与8个Leaf交换机的连接每个Leaf交换机有16个上行端口分别连接16台Spine交换机
光模块用量:Leaf交换机的下行端口需使用400G光模块,需求量为32*8*4。Leaf交换机的上行端口使用800G光模块,需求量为16*8*4。Spine交换机的下行端口使用800G光模块。因此,在128台H800服务器集群中,计算网络用了800G光模块1536个、400G光模块1024个
 

 

2024年5月8日 16:25
浏览量:0