最新資訊

您所在的位置：首頁 > 新聞中心 > 解決方案

超微GPU Server H100/H200 系統(tǒng)介紹

來源：m.neuromuscular--dentist.com 發(fā)布時(shí)間：2024/10/28 10:47:44

嚴(yán)格意義上HGX里面有8個(gè)GPU，每個(gè)GPU為一個(gè)Module 這個(gè)才叫做模組，HGX 其實(shí)是由8個(gè)GPU 模組和4個(gè)NVLInk Switch組成，下圖所示，就是每個(gè)上圖的SINK 下面的GPU模組。

放大的圖：

嚴(yán)格意義的模組中間就是H100/A100這種GPU，通過SXM SOCKET 接口和GPU主板連接。

然后下圖是8個(gè)GPU 模組通過4 個(gè)NVLINK SWITCH 連接，組成一個(gè)8GPU的“大號(hào)”GPU。

在H100 SXM GPU上加裝散熱器后，便構(gòu)成了HGX，這是由英偉達(dá)設(shè)計(jì)的一種配置，作為直接供應(yīng)給服務(wù)器制造商的“最小單元”。需要注意的是，HGX本身并不能單獨(dú)運(yùn)行，因?yàn)樗举|(zhì)上是一個(gè)“大型邏輯GPU”，必須與服務(wù)器平臺(tái)（即服務(wù)器主體）結(jié)合使用，才能構(gòu)成一個(gè)完整的GPU服務(wù)器。這種完整的服務(wù)器便是NVIDIA DGX，一款由英偉達(dá)品牌提供的GPU服務(wù)器。除了核心的HGX模塊之外，DGX還配備了服務(wù)器所需的其他組件，如機(jī)箱、主板、電源、CPU、內(nèi)存、存儲(chǔ)設(shè)備及網(wǎng)絡(luò)接口卡等。盡管在功能和結(jié)構(gòu)上，NVIDIA DGX與其他服務(wù)器制造商基于HGX模塊構(gòu)建的GPU服務(wù)器沒有顯著差異，但由于其高昂的價(jià)格以及可能與合作伙伴產(chǎn)生市場(chǎng)競(jìng)爭(zhēng)的考慮，NVIDIA通常不會(huì)廣泛推廣DGX產(chǎn)品，除非是針對(duì)特定客戶群體。事實(shí)上，NVIDIA DGX更多地出現(xiàn)在每年GTC大會(huì)等場(chǎng)合，用于展示新的GPU技術(shù)，例如直接贈(zèng)送給像ChatGPT實(shí)驗(yàn)室這樣的研究機(jī)構(gòu)或在發(fā)布會(huì)上向客戶展示。這一策略既體現(xiàn)了NVIDIA希望通過DGX來吸引關(guān)注和宣傳新技術(shù)的意圖，同時(shí)也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競(jìng)爭(zhēng)。

因此，從某種程度上講，DGX可以被視為一種“概念車型”的存在，主要用于技術(shù)和市場(chǎng)的展示目的，而非大規(guī)模商業(yè)銷售。出于對(duì)合作伙伴關(guān)系的維護(hù)，NVIDIA在多數(shù)情況下并不在美國(guó)及其他地區(qū)廣泛銷售DGX。鑒于此，為了更貼合實(shí)際應(yīng)用情況，我們將以超微公司的一款SYS-821GE-TNHR AI服務(wù)器為例進(jìn)行介紹，這款服務(wù)器在設(shè)計(jì)和性能上與DGX有著相似之處。

接下來就是這個(gè)系統(tǒng)貴的部分HGX的俯視圖, 主要由8個(gè)H100 和4個(gè)NVLINK Switch組成,號(hào)稱占到整個(gè)系統(tǒng)的90%，這個(gè)就是Intel 的股票為啥腰斬，而NVIDIA的股票狂漲的原因。AIGC這波操作，Intel幾乎沒有賺到多少錢 ,一個(gè)系統(tǒng)就賣2個(gè)CPU 估計(jì)1%都不到，但是8個(gè)GPU占到整個(gè)系統(tǒng)的90%成本。

系統(tǒng)架構(gòu)圖：

觀看了整個(gè)機(jī)器的外部和內(nèi)部結(jié)構(gòu)，在這個(gè)基礎(chǔ)上理解系統(tǒng)架構(gòu)圖就比較容易

1. 上面的motherboard 主板，主板主要由CPU 內(nèi)存組成，兩個(gè)CPU SOCKET 通過4個(gè)UPI LINK連接，CPU通過DMI連接PCH (南橋，Intel 又叫 Platform Controller Hub) 再連接BMC和2個(gè)M.2 Nvme 應(yīng)該裝OS使用，2個(gè)M.2 NVMe 可以組成RAID 1.

2. 中間底部的表示的為上面介紹的PCIe Switch Board, 每個(gè)CPU因?yàn)槭荌ntel 第4代/5代 CPU 可以支持80個(gè)PCIe Lane ,所以總共可以支持160Lane，連接到6個(gè)PCIe Switch ,其中4個(gè)PCIe Switch 是用來和HGX 上的GPU通信的，每個(gè)PCIe SW上端USP(Upstream Port) 32 PCIe Lane ，下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個(gè)PCIe Switch可以接兩張x16網(wǎng)卡，總共8張網(wǎng)卡，假設(shè)每個(gè)網(wǎng)卡可以提供200Gb/s的帶寬, 則可以通過這些網(wǎng)卡實(shí)現(xiàn)1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實(shí)現(xiàn)GPU跨Node 的直接連接而無需CPU介入，從而實(shí)現(xiàn)Server 和 Server之間的8 GPU通訊，把若干各8 GPU組網(wǎng)連接在一起。這對(duì)大模型訓(xùn)練特別有用，大模型訓(xùn)練里面一個(gè)概念模型并行，模型并行（Model Parallel, MP）通常是指在多個(gè)計(jì)算節(jié)點(diǎn)上分布式地訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò)模型，其中每個(gè)節(jié)點(diǎn)負(fù)責(zé)模型的一部分。這種方法主要用于解決單個(gè)計(jì)算節(jié)點(diǎn)無法容納整個(gè)模型的情況。模型并行可以進(jìn)一步細(xì)分為幾種策略，PP和TP。每個(gè)PCIe Switch DSP里面還有另外兩個(gè)x16 PCIe lane用來接入GPU到HGX，這個(gè)是CPU-GPU的通信，主要是CPU對(duì)GPU進(jìn)行控制流的操作，類似大模型的訓(xùn)練都在HGX 里面的GPU執(zhí)行了，但是開始進(jìn)行初始化和一些數(shù)據(jù)準(zhǔn)備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的，所以還是需要通信的，只不過這個(gè)通信沒有GPU-GPU之前的數(shù)據(jù)量那么大。每個(gè)PCIe SW 還有一個(gè)8lane 是留給2 x NVMe SSD 使用，總共支持64lane ,8個(gè)NVMe SSD 用來進(jìn)行本地存儲(chǔ)。

3. 兩側(cè)各可以配置一個(gè)PCIe Switch這兩個(gè)一個(gè)是default 一個(gè)是可選，用來做CPU 的網(wǎng)絡(luò)通信使用,即這兩個(gè)CPU和其他的Server 之間的通信，可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載，可以實(shí)現(xiàn)GDS和存算分離的存儲(chǔ)集群通過 GDS( GPUDriect Stroage )連接。另外兩個(gè)x16的PCIE 再可以接8個(gè)NVme 加上PCIe Switch board 的8個(gè)系統(tǒng)總共支持18個(gè)NVME U.2.

來源： stephenxi 計(jì)算機(jī)體系結(jié)構(gòu)及底層原理公眾號(hào)

上一條：英偉達(dá)主流GPU參數(shù)速查表10.31 下一條：服務(wù)器產(chǎn)品的L6和L10是什么？

国产成人av一区无码|国产精品Ⅴa在线观看|久久久久有精品国产麻豆|不卡无码视频在线观看免费|国产日韩综合久久精品毛片|在线亚洲综合欧美网站首页|亚洲精品tv久久久久久久久|91精品国产91久久久久久久

新聞導(dǎo)航

推薦產(chǎn)品

浪潮服務(wù)器NF8260G7

浪潮服務(wù)器NF5466G7

最新資訊

国产成人av一区无码|国产精品Ⅴa在线观看|久久久久有精品国产麻豆|不卡无码视频在线观看免费|国产日韩综合久久精品毛片|在线亚洲综合欧美网站首页|亚洲精品tv久久久久久久久|91精品国产91久久久久久久

新聞導(dǎo)航

推薦產(chǎn)品

浪潮服務(wù)器NF8260G7

浪潮服務(wù)器NF5466G7

最新資訊

相關(guān)文章

相關(guān)產(chǎn)品