當前位置：華文頭條 > 推薦

從H100、GH200到GB200，輝達如何構建 AI超級電腦SuperPod？

2024-09-04推薦

進入AI大模型時代，單個GPU訓練AI模型早已成為歷史。 如何讓成百上千個GPU互連，組成宛若一個GPU的超級計算系統，成為業界熱點！

NVIDIA DGX SuperPOD是下一代數據中心人工智能（AI）架構。旨在提供AI模型訓練、推理、高效能計算（HPC）和混合套用中的高級計算挑戰所需的計算效能水平，以提高預測效能和解決方案的時間。

下面一起學習輝達p00→Gp00→GB200三代產品的GPU互連架構方案。

1、基於p00搭建256 GPU的SuperPod

在DGX A100情況下，每個節點上8張GPU透過NVLink和NVSwitch互聯，機間（不同伺服器）直接用200Gbps IB HDR網絡互聯（註：機間網絡可以用IB網絡，也可以用RoCE網絡）。

而在DGX p00的情況下，輝達把機內的NVLink擴充套件到機間，增加了NVLink-network Switch，由NVSwitch負責機內的交換，NVLink-network Switch則是負責機間交換的交換機，基於NVSwitch和NVLink-network Switch可以搭建256個p00 GPU組成的SuperPod（即一個超級計算系統），256個GPU卡Reduce頻寬仍然可以打到450 GB/s，和單機內部8個GPU卡的Reduce頻寬完全一致。

但是DGX p00的SuperPod也存在一定的問題，跨DGX p00節點的連線只有72個NVLink連線，SuperPod系統裏並不是無收斂的網絡。

如下圖，在DGX p00系統裏，四個NVSwitch留出了72個NVLink連線用於透過NVLink-network Switch連線到其他DGX p00系統，72個NVLink連線的總雙向頻寬是3.6TB/s，而8個p00的總雙向頻寬是7.2TB/s，因此，在SuperPod系統裏在NVSwitch處存在收斂。

圖：基於p00搭建256 GPU的SuperPod

2、基於Gp00和Gp00 NVL32搭建256 GPU的SuperPod

2023年，輝達宣布生成式AI引擎DGX Gp00投入量產，Gp00是p00 GPU（p00與p00主要是記憶體大小和頻寬效能方面的區別）與Grace CPU的結合體，一個Grace CPU對應一個p00 GPU，Gp00除了GPU之間采用NVLink4.0連線以外，GPU和CPU之間也采用NVLink4.0連線。

Gp00透過NVLink 4.0的900GB/s超大網絡頻寬能力來提升算力，伺服器內部可能采用銅線方案，但伺服器之間可能采用光纖連線。對於單個256 Gp00芯片的集群，計算側1個Gp00對應9個800Gbps（每個800Gbps對應100GB/s，2條NVLink 4.0鏈路）光模組。

Gp00 SuperPod與DGX p00 SuperPod的區別在於在單節點內部和節點之間互聯時都是用NVLink-network Switch互聯。

DGX Gp00采用二級Fat-tree結構，由8個Gp00和3個一級NVLink-network Switch（每個NVSwitch Tray包含2個NVSwitch芯片，有128個Port）組成單機，32個單機經由36個二級NVLink-network Switch全互聯，形成了256個Gp00的SuperPod（註意是36個二級NVLink-network Switch，這樣才能保證無收斂）。

圖：基於Gp00搭建256 GPU的SuperPod

Gp00 NVL32為機架級集群，單個Gp00 NVL32擁有32個Gp00 GPU和9個NVSwitch Tray（18個NVSwitcp.0芯片），如果組成256個GPU的Gp00 NVL32超級節點，則需要再配置一級機間的36個NVLink-network Switch即可。

3、基於GB200 NVL72搭建576 GPU的SuperPod

和Gp00不同，一個GB200由1個Grace CPU和2個Blackwell GPU組成（註：單個GPU算力不完全等價B200）。GB200 Compute Tray是基於輝達MGX設計的，一個Compute Tray包含2個GB200，也就是2個Grace CPU、4個GPU。

一個GB200 NVL72節點包含18個GB200 Compute Tray，即36個Grace CPU，72個GPU，此外還包含9個NVLink-network Switch Tray（每個Blackwell GPU有18個NVLink，而每個第4代NVLink-network Switch Tray包含144個NVLink Port，所以需要72*18/144=9個NVLink-network Switch Tray實作全互聯）。

圖：GB200 NVL72內部拓撲架構

在輝達的官方宣傳中，8個GB200 NVL72組成一個SuperPod，從而組成一個由576個GPU組成的超級節點。

但是，我們透過分析可以看出GB200 NVL72機櫃中的9個NVLink-network Switch Tray已經全部用於連線72個GB200了，已經沒有額外的NVLink介面用於擴充套件構成更大規模的兩層交換集群了，576個GPU的SuperPod從輝達官方的圖片來看，更多的是透過Scale-Out RDMA網絡互聯的，而並不是透過Scale-Up的NVLink網絡互聯的。如果需要透過NVLink互聯來支持576個GPU的SuperPod，則需要每72個GB200配置18個NVSwitch，這樣單機櫃就放不下了。

另外，輝達官方說NVL72有單機櫃版本，也有雙機櫃的版本，並且雙機櫃每個Compute Tray只有一個GB200子系統，這樣有可能是透過雙機櫃的版本來實作透過NVLink互聯來支持576個GPU的SuperPod，這樣這個雙機櫃版本的每個雙機櫃有72個GB200和18個NVLink-network Switch Tray，從而可以滿足兩層集群的部署需要。如下圖所示：

圖：基於GB200搭建576GPU的SuperPod

和上一代256個p00全互聯類似結構類似，只是第一級及第二級所有的器材台數有所不同，需要兩級NVLink-network Switch互聯：

第一級的一半Port連線576個Blackwell GPU，所以需要576*18/(144/2) =144個NVLink-network Switch，每個NVL72有18個NVLink-network Switch Tray。第二級Port全部與第一級的NVLink-network Switch Port連線，所以需要144*72/144=72 個NVSwitch。

文章來源：可鑒智庫

Copyright © 2024 www.digfamily.com NO.1 華文頭條

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）