电竞比分网-中国电竞赛事及体育赛事平台

分享

一文徹底搞懂:什么是InfiniBand(IB)網(wǎng)絡(luò)【干貨】

 yi321yi 2024-12-10
接上一篇,我們學(xué)習(xí)到了什么是RDMA技術(shù)及其三個協(xié)議,接下來我們重點學(xué)習(xí)一下RDMA技術(shù)協(xié)議下的兩個重要網(wǎng)絡(luò)-InfiniBand(IB)網(wǎng)絡(luò)和RoCE網(wǎng)絡(luò),本節(jié)重點學(xué)習(xí)IB網(wǎng)絡(luò)及其組成。
本篇文章共分為五個部分,文章比較長,可以根據(jù)自己的愛好重點學(xué)習(xí)感興趣的部分。
一、什么是InfiniBand網(wǎng)絡(luò)
二、InfiniBand發(fā)展歷程
三、InfiniBand工作原理
四、InfiniBand網(wǎng)卡端口、光模塊演進(jìn)
五、常見的InfiniBand網(wǎng)絡(luò)產(chǎn)品


一、什么是InfiniBand網(wǎng)絡(luò)
InfiniBand:“無限帶寬”技術(shù),縮寫為IB,是一種網(wǎng)絡(luò)通信標(biāo)準(zhǔn),是RDMA技術(shù)的一種協(xié)議(上一節(jié)文章有講到),它采用高速差分信號技術(shù)和多通道并行傳輸機制,主要目標(biāo)是提供高性能、低延遲和高可靠性
InfiniBand:是致力于服務(wù)器端的高性能計算的互聯(lián)技術(shù),具有極高的吞吐量和極低的時延,用于計算機與計算機之間的數(shù)據(jù)互連(如復(fù)制,分布式工作等),InfniBand也用作服務(wù)器與存儲系統(tǒng)之間的直接或交換互連(如SAN和直接存儲附件),以及存儲系統(tǒng)之間的互連,服務(wù)器和網(wǎng)絡(luò)之間(比如LAN,WANs和the Interet)的通信。廣泛用于數(shù)據(jù)中心、HPC高性能存儲等領(lǐng)域。后面隨著人工智能的興起,它被用作為GPU服務(wù)器互聯(lián)的首選網(wǎng)絡(luò)互連技術(shù)。


二、InfiniBand發(fā)展歷程
上世紀(jì)90年代早期,為了支持越來越多的外部設(shè)備,英特爾公司率先在標(biāo)準(zhǔn)PC架構(gòu)中引入PCI總線設(shè)計。但是隨著CPU、內(nèi)存、硬盤等部件都在快速升級,PCI總線因升級速度緩慢成為整個系統(tǒng)的瓶頸。為了解決這個問題,IT界巨頭:康柏,戴爾(Dell),惠普(HP),IBM,Intel,微軟和Sun等180多家公司共同發(fā)起成立IBTA(InfiniBand Trade Association,即InfiniBand行業(yè)協(xié)會)。
Image
IBTA成立目的,就是研究新的替代技術(shù)來取代PCl,解決PCI總線傳輸瓶頸的問題。于是在2000年,InfiniBand架構(gòu)規(guī)范的1.0版本正式發(fā)布,它引入了RDMA協(xié)議,具有更低的延遲,更大的帶寬,更高的可靠性,可以實現(xiàn)更強大的I/O性能,成為系統(tǒng)互連的新技術(shù)標(biāo)準(zhǔn)。
提到InfiniBand,就不得不提到一家以色列公司--Mellanox(中文名為:邁絡(luò)思,可簡單記住“賣螺絲”)。1999年5月,幾名從英特爾和伽利略技術(shù)公司離職的員工在以色列創(chuàng)立了Mellanox。Mellanox公司成立后,隨之加入了InfiniBand行業(yè)陣營,2001年他們推出了自己的首款InfiniBand產(chǎn)品。
Image
2002年,InfiniBand陣營突遭巨變。這一年,英特爾公司“臨陣脫逃”,決定轉(zhuǎn)向開發(fā)PCI Express(也就是PCIe,2004年推出)。而另一家巨頭微軟,也退出了InfiniBand的開發(fā)。盡管SUN和日立等公司仍選擇堅持,但I(xiàn)nfiniBand的發(fā)展已然蒙上了陰影。

2003年開始,InfiniBand轉(zhuǎn)向了一個新的應(yīng)用領(lǐng)域,那就是計算機集群互聯(lián)。2005年,InfiniBand又找到了一個新場景:存儲設(shè)備連接。2012年之后,隨著高性能計算(HPC)需求的不斷增長,InfiniBand技術(shù)繼續(xù)高歌猛進(jìn),市場份額不斷提升。

在InfiniBand技術(shù)逐漸崛起的過程中,Mellanox也在不斷壯大,逐漸成為了InfiniBand市場的領(lǐng)導(dǎo)者。2010年,Mellanox和Voltaire公司合并,InfiniBand主要供應(yīng)商只剩下了Mellanox(2019年被英偉達(dá)收購)和QLogic(2012年被Intel收購)。
2013年,Mellanox相繼收購了硅光子技術(shù)公司Kotura和并行光互連芯片廠商IPtronics,進(jìn)一步完善了自身產(chǎn)業(yè)布局。
2015年,InfiniBand技術(shù)在TOP500榜單中的占比首次超過了50%。這標(biāo)志著InfiniBand技術(shù)首次實現(xiàn)了對以太網(wǎng)技術(shù)的逆襲,成為超級計算機最首選的集群互聯(lián)技術(shù)
2015年,Mellanox在全球InfiniBand市場上的占有率達(dá)到80%。他們的業(yè)務(wù)范圍,已經(jīng)從芯片逐步延伸到網(wǎng)卡、交換機/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)和線纜及模塊全領(lǐng)域,成為世界級網(wǎng)絡(luò)提供商。
2019年,英偉達(dá)豪擲69億美元收購了Mellanox,老黃的說法是:這是兩家全球領(lǐng)先高性能計算公司的結(jié)合,NVIDIA專注于加速計算,而Mellanox專注于互聯(lián)和存儲。現(xiàn)在看來,英偉達(dá)是非常有遠(yuǎn)見的:大模型訓(xùn)練高度依賴高性能計算集群,而InfiniBand網(wǎng)絡(luò)則是高性能計算集群的最佳搭檔。


三、InfiniBand工作原理
InfiniBand工作原理非網(wǎng)絡(luò)專業(yè)的看起來比較深奧,初學(xué)者可以簡單了解一下或直接跳過。InfiniBand 協(xié)議同樣采用了分層結(jié)構(gòu),各層相互獨立,下層為上層提供服務(wù),其工作原理如下圖所示:
Image
  • 物理層:定義了在線路上如何將比特信號組成符號,然后再組成幀、數(shù)據(jù)符號以及包之間的數(shù)據(jù)填充等,詳細(xì)說明了構(gòu)建有效包的信令協(xié)議等。
  • 鏈路層:定義了數(shù)據(jù)包的格式以及數(shù)據(jù)包操作的協(xié)議,如:流控、 路由選擇、編碼、解碼等。
  • 網(wǎng)絡(luò)層:通過在數(shù)據(jù)包上添加一個40字節(jié)的全局的路由報頭(Global Route Header, GRH)來進(jìn)行路由的選擇,對數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)。在轉(zhuǎn)發(fā)的過程中,路由器僅僅進(jìn)行可變的CRC校驗,這樣就保證了端到端的數(shù)據(jù)傳輸?shù)耐暾浴?/span>
   Infiniband報文封裝架構(gòu)如下圖所示:
Image
  • 傳輸層:將數(shù)據(jù)包傳送到某個指定的隊列偶(Queue Pair, QP)中,并指示QP如何去處理該數(shù)據(jù)包。InfiniBand網(wǎng)絡(luò)的傳輸采用了基于信用的流控(Credit-Based Flow Control, CBFC)技術(shù)來確保數(shù)據(jù)傳輸的可靠性和效率。這種機制通過管理發(fā)送方和接收方之間的信用額度(即接收方能夠接收的數(shù)據(jù)量)來避免數(shù)據(jù)包的丟失和擁塞。如下圖所示:
Image  
QP是RDMA技術(shù)中通信的基本單元。隊列偶就是一對隊列,SQ(Send Queue,發(fā)送工作隊列)和 RQ(Receive Queue,接收工作隊列)。用戶調(diào)用API發(fā)送接收數(shù)據(jù)的時候,實際上是將數(shù)據(jù)放入QP當(dāng)中,然后以輪詢的方式,將QP中的請求一條條的處理。
      CBFC技術(shù)的優(yōu)勢可以主要概括為三點:
  1. 避免擁塞通過動態(tài)調(diào)整信用額度、無損傳輸,CBFC技術(shù)能夠有效地避免網(wǎng)絡(luò)擁塞和數(shù)據(jù)包丟失;

  2. 提高效率發(fā)送方可以在不等待確認(rèn)的情況下連續(xù)發(fā)送數(shù)據(jù),直到信用額度耗盡,從而提高了數(shù)據(jù)傳輸?shù)男省?/span>

  3. 自動配置Infiniband設(shè)備在物理安裝完成后,流控機制即自動工作,無需用戶手動配置。

可以看出,InfiniBand 擁有自己定義的 1-4 層(物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層)格式,是一個完整的網(wǎng)絡(luò)協(xié)議。端到端流量控制,是 InfiniBand 網(wǎng)絡(luò)數(shù)據(jù)包發(fā)送和接收的基礎(chǔ),可以很好的實現(xiàn)無損網(wǎng)絡(luò)。
當(dāng)然InfiniBand高速無損網(wǎng)絡(luò)還有:類似Socket Direct、自適應(yīng)路由(Adaptive routing)、Subnet Manager子網(wǎng)管理、網(wǎng)絡(luò)分區(qū)、SHARP引擎網(wǎng)絡(luò)優(yōu)化等技術(shù)和功能,共同組合來實現(xiàn)其高性能、低延遲和易擴展的特性。這里就不展開了。


四、InfiniBand網(wǎng)卡端口、光模塊演進(jìn)
InfiniBand的網(wǎng)絡(luò)帶寬通過技術(shù)發(fā)展和迭代,從早期的SDR、DDR、QDR、FDR、EDR、HDR,一路升級到NDR、XDR、GDR。其速度是基于 4x 鏈路速度。如下圖所示,該路線圖詳細(xì)闡述了1x、2x、4x和12x端口寬度的發(fā)展方向。
Image
1、InfiniBand網(wǎng)卡端口帶寬演進(jìn)
Image
InfiniBand接口速率對比
最新的平臺Quantum-X800 更是達(dá)到了InfiniBand 800G XDR。但是因XDR和GDR目前還在處于實驗階段,并未推出并投入實際應(yīng)用,可能還需等等。
Image
2、光模塊及其帶寬的演進(jìn)
光模塊的帶寬是跟隨光模塊的封裝技術(shù)演進(jìn)而不斷變大的,目前QSFP-DD封裝技術(shù),可以到達(dá)800G。
Image
光模塊及帶寬發(fā)展趨勢:
Image


五、常見的InfiniBand網(wǎng)絡(luò)產(chǎn)品
1、InfiniBand交換機
現(xiàn)今,在千卡集群搭建過程中,如果部署IB網(wǎng)絡(luò),一般都會要求到400G及其以上的網(wǎng)絡(luò),因此NVIDIA Quantum-2 的 QM9700 和 QM9790兩款交換機,通常作為IB網(wǎng)絡(luò)的首選。
QM9700 正面圖和背面圖,管理功能
Image
Image
標(biāo)準(zhǔn)機架式64口帶管理模塊NDR IB交換機,單臺可提供64NDR 400Gb/s IB端口,冗余風(fēng)扇模塊,1+1冗余電源。具體參數(shù)可上英偉達(dá)的官網(wǎng)查看。
QM9790正面圖,帶管理功能
Image
標(biāo)準(zhǔn)機架式64NDR IB交換機,單臺可提供64NDR 400Gb/s IB端口,冗余風(fēng)扇模塊,1+1冗余電源。但是QM9700是不帶管理功能的。具體參數(shù)可上英偉達(dá)的官網(wǎng)查看。
另外還有個特別需求關(guān)注的,就是選擇交換機的時候,要選擇好具體的型號,需要根據(jù)機房及機柜部署方式,選擇不一樣的交換機的進(jìn)出風(fēng)方向,如果選擇不對,可能會對綜合布線會帶來非常大麻煩!
Image
2、InfiniBand網(wǎng)卡
因為目前的IB網(wǎng)絡(luò)一般要求400G及其以上,因此我們選擇對應(yīng)的網(wǎng)卡都是400G OSFP,以下是英偉達(dá)原廠的ConnectX-7 400G OSFP網(wǎng)卡。
Image
ConnectX-7(400G OSFP)是一個 PCIe Gen5 x16 的矮卡。
NVIDIA?ConnectX?-7 系列遠(yuǎn)程直接內(nèi)存訪問 (RDMA) 網(wǎng)絡(luò)適配器支持 InfiniBand 和以太網(wǎng)協(xié)議以及高達(dá) 400Gb/s 的速度。 支持各種智能、可擴展且功能豐富的網(wǎng)絡(luò)解決方案,可滿足傳統(tǒng)企業(yè)的需求,直至世界上最苛刻的人工智能、科學(xué)計算和超大規(guī)模云數(shù)據(jù)中心工作負(fù)載。
Image
3、InfiniBand光模塊
400G及以上的IB網(wǎng)絡(luò),選擇的光模塊一般就是:NDR光模塊,目前市面分別有400G的和800G的,需要根據(jù)機房距離來選擇使用多模還是單模的,多模一般只能傳輸50m以內(nèi)的距離。
多模光模塊——MMA4Z00-NS(50m)

單模光模塊——MMS4X00-NS(100m)、MMS4X00-NM(500m)。

如:MMA4Z00-NS 800G模塊

Image

MA4Z00-NS InfiniBand NDR OSFP2x400G光模塊 850nm 50m

MMA4Z00-NS 是一款I(lǐng)nfiniBand和以太網(wǎng)800Gb/s 2x400Gb/s 雙端OSFP、2xSR4多模,每通道速率為400Gb/s,使用8 根多模光纖,最大光纖傳輸距離為50米的光模塊。主要用于Quantum-2InfiniBand 到兩個400Gb/sConnectX-7 OSFP網(wǎng)卡,如下圖所示的連接方式。

Spine-Leaf間布線方式

Image

以上就是IB交換機的Spine與Leaf之間的連接,兩端分別需要1個800G模塊,中間需要連接2條MPO線纜。

Leaf-GPU服務(wù)器間的布線方式

Image

以上就是IB的Leaf交換機與GPU服務(wù)器之間的連接,Leaf交換機側(cè)只需要1個800G模塊,GPU服務(wù)器端可以連接2個400G光卡,中間需要連接2條MPO線纜。

4、InfiniBand線纜

InfiniBand網(wǎng)絡(luò)中,使用的線纜區(qū)別于傳統(tǒng)的以太網(wǎng)線纜和光纖線纜。一般需使用專用的InfiniBand線纜。InfiniBand線纜產(chǎn)品包括:DAC高速銅纜、AOC有源線纜。

Image

DAC高速線纜:也叫直連銅纜(Direct Attach Copper cable)。DAC高速線纜的功耗比較低,但傳輸距離通常低于10米。價格方面相對便宜一些。

AOC有源光纜(Active Optial Cable),功耗相對比較大些,但傳輸?shù)木嚯x可達(dá)到100米,但是價格比較昂貴。

其實隨著技術(shù)發(fā)展,現(xiàn)在的IB網(wǎng)絡(luò)的線纜不再局限以上2種線纜類型(因為以上的2種線纜確實太貴),現(xiàn)在800G和400G的光模塊已經(jīng)兼容普通的MPO線纜,這里就不展開了,感興趣的可以私信我,我們共同交流討論。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多