电竞比分网-中国电竞赛事及体育赛事平台

分享

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

 mrjiangkai 2023-09-15

隨著大模型參數(shù)量和訓(xùn)練集規(guī)模大幅增加,智能計(jì)算對通信網(wǎng)絡(luò)的需求相比于傳統(tǒng)的通用計(jì)算有所提升。我們認(rèn)為,基于InfiniBand協(xié)議的網(wǎng)絡(luò)架構(gòu)相比以太網(wǎng)當(dāng)前在性能端具備優(yōu)勢,但以太網(wǎng)也能夠滿足智能計(jì)算對數(shù)據(jù)中心的通信需求,在長期有望憑借經(jīng)濟(jì)性和通用性實(shí)現(xiàn)在智算中心占有率的不斷提升,帶動(dòng)以太網(wǎng)生態(tài)產(chǎn)業(yè)鏈中的優(yōu)質(zhì)企業(yè)業(yè)績呈現(xiàn)后周期成長。

摘要

智能計(jì)算對數(shù)據(jù)中心提出通信新需求,促使網(wǎng)絡(luò)架構(gòu)升級。大模型訓(xùn)練的分布式計(jì)算需要GPU高頻進(jìn)行計(jì)算結(jié)果通信,網(wǎng)絡(luò)流量增加,南北向流量向東西向流量轉(zhuǎn)變。所以對通信網(wǎng)絡(luò)提出超大規(guī)模組網(wǎng)、超高帶寬、超低時(shí)延、超高穩(wěn)定性和網(wǎng)絡(luò)自動(dòng)化部署新需求,典型網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)向多核心、少收斂形態(tài)。英偉達(dá)采用基于InfiniBand協(xié)議的胖樹型架構(gòu)構(gòu)建數(shù)據(jù)中心,Quantum-2系列交換機(jī)可實(shí)現(xiàn)51.2Tbps雙向吞吐量,適用于智能計(jì)算和高性能計(jì)算。

InfiniBand是用于高性能計(jì)算的通信標(biāo)準(zhǔn),其特性能夠滿足智能計(jì)算新需求。InfiniBand多用于高性能計(jì)算集群,并持續(xù)向更高性能迭代。在發(fā)展的二十余年中,由于協(xié)議下游市場相對小眾,退出者眾,而最終呈現(xiàn)出英偉達(dá)Mellanox一枝獨(dú)秀的較為封閉的產(chǎn)業(yè)生態(tài)。InfiniBand的優(yōu)質(zhì)特性能夠?qū)?yīng)解決智算對網(wǎng)絡(luò)通信的需求,其具有天然的自動(dòng)化部署、基于信用的鏈路層流控機(jī)制、RDMA等功能,從而有助于實(shí)現(xiàn)無損網(wǎng)絡(luò)、避免丟包,提升智能計(jì)算效率。

以太網(wǎng)面向高性能計(jì)算場景升級,有望憑借經(jīng)濟(jì)性和通用性與InfiniBand抗衡。RoCE協(xié)議下,以太網(wǎng)融合RDMA功能,在高性能計(jì)算場景下的通信性能大幅提升,達(dá)到接近InfiniBand的水平;但整體而言,InfiniBand受益于技術(shù)優(yōu)勢,在高帶寬、低時(shí)延等性能上仍略優(yōu)于升級后的以太網(wǎng)。為應(yīng)對InfiniBand沖擊,博通、AMD、思科、Arista、Meta等硬件設(shè)備和超大規(guī)模云廠商成立UEC聯(lián)盟,從物理層到軟件層開發(fā)高性能以太網(wǎng)。同時(shí)今年以來,博通、思科等多家頭部以太網(wǎng)供應(yīng)商推出高性能解決方案。展望未來,我們認(rèn)為以太網(wǎng)具備通用性和硬件部署經(jīng)濟(jì)性,在短期與InfiniBand有望形成抗衡,并隨著豐富生態(tài)中參與者的合作迭代,在長期勝出;以太網(wǎng)生態(tài)中的頭部供應(yīng)商未來有望受益于AI催化下的硬件擴(kuò)容和以太網(wǎng)占有率提升的雙重利好因素。

風(fēng)險(xiǎn)

AI大模型發(fā)展不及預(yù)期;數(shù)據(jù)中心建設(shè)不及預(yù)期。

正文

AI需要怎樣的數(shù)據(jù)中心網(wǎng)絡(luò)?

智能計(jì)算對通信網(wǎng)絡(luò)的需求相較于傳統(tǒng)的通用計(jì)算和超算有所提升

智能計(jì)算對通信網(wǎng)絡(luò)的需求大幅提升。2017年Google發(fā)布《Attention Is All You Need》,成為后續(xù)大模型架構(gòu)基礎(chǔ),論文中提出的Transformer神經(jīng)網(wǎng)絡(luò)利用Self-attention自注意力機(jī)制實(shí)現(xiàn)并行處理。自此,人們意識到模型表現(xiàn)與其參數(shù)規(guī)模成正比,從Transformer的1億參數(shù)量到Switch Transformer的1.6萬億參數(shù)量,參數(shù)和訓(xùn)練集規(guī)模不斷刷新。大模型通過數(shù)據(jù)并行和模型并行輔助訓(xùn)練,計(jì)算節(jié)點(diǎn)較多,且節(jié)點(diǎn)之間需要高頻進(jìn)行中間計(jì)算結(jié)果的通信,為了提高GPU有效計(jì)算時(shí)間占比、避免網(wǎng)絡(luò)延遲和帶寬限制拖累AI訓(xùn)練效率,智算場景對通信性能提出了更高要求。

圖表1:國內(nèi)外大模型參數(shù)量演進(jìn)

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

注:數(shù)據(jù)截至2023年3月
資料來源:北京智源人工智能研究院,中金公司研究部

根據(jù)中國移動(dòng)研究院[1],人工智能對通信網(wǎng)絡(luò)需求包括超大規(guī)模組網(wǎng)需求、超高帶寬需求、超低時(shí)延及抖動(dòng)需求、超高穩(wěn)定性需求、網(wǎng)絡(luò)自動(dòng)化部署需求。在人工智能大規(guī)模訓(xùn)練任務(wù)中,高效集群組網(wǎng)方案能夠提升AI分布式訓(xùn)練的效率,所以智能計(jì)算對通信網(wǎng)絡(luò)的規(guī)模、帶寬、時(shí)延、穩(wěn)定性和網(wǎng)絡(luò)部署提出高要求,相較于傳統(tǒng)的通用計(jì)算和超算有所提升。

?超大規(guī)模組網(wǎng)需求:網(wǎng)絡(luò)能力和計(jì)算能力需要高度匹配,AI大模型訓(xùn)練需要數(shù)千、甚至上萬GPU互聯(lián)、進(jìn)行并行計(jì)算,算力集群體量遠(yuǎn)在使用CPU計(jì)算的傳統(tǒng)數(shù)據(jù)中心之上。因此,當(dāng)前云數(shù)據(jù)中心網(wǎng)絡(luò)需求一般為10Gb/s-100Gb/s,而AI超大模型訓(xùn)練網(wǎng)絡(luò)需求為100Gb/s-400Gb/s、甚至更高。

?超高帶寬需求:AI大模型訓(xùn)練場景下,機(jī)內(nèi)GPU通信與機(jī)外集合通信將產(chǎn)生大量通信數(shù)據(jù)量。千億參數(shù)的AI模型并行訓(xùn)練產(chǎn)生的集合通信數(shù)據(jù)量將達(dá)到數(shù)百GB量級,對GPU與GPU間、GPU與網(wǎng)卡間提出超高帶寬需求。GPU與網(wǎng)卡通過PCIe總線連接,網(wǎng)卡單端口帶寬需要與PCIe總線帶寬匹配,以確保網(wǎng)卡和PCIe均能發(fā)揮最大帶寬。

?超低時(shí)延及抖動(dòng)需求:丟包率對GPU有效計(jì)算時(shí)間影響較大,降低計(jì)算通信時(shí)延、提升吞吐量能夠使大規(guī)模智算中心有效釋放算力。

?超高穩(wěn)定性需求:超大網(wǎng)絡(luò)集群中,一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的故障或?qū)⒂绊憯?shù)十個(gè)甚至更多計(jì)算節(jié)點(diǎn)連通性。故障時(shí)需要容錯(cuò)替換等方式處理故障,并重新排布提升效率。

?網(wǎng)絡(luò)自動(dòng)化部署需求:基于RDMA的智能無損網(wǎng)絡(luò)需要復(fù)雜配置,超90%高性能網(wǎng)絡(luò)故障是由配置錯(cuò)誤引起的,高效的自動(dòng)化部署能夠提升網(wǎng)絡(luò)集群性能,通過多臺(tái)服務(wù)器并行部署配置能力實(shí)現(xiàn)。

圖表2:智算中心相較傳統(tǒng)數(shù)據(jù)中心,對通信性能要求提升

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:中國移動(dòng)研究院,百度開發(fā)者中心,信息化觀察網(wǎng),中金公司研究部

智能計(jì)算相比于傳統(tǒng)通用計(jì)算和超算,對數(shù)據(jù)中心通信性能的要求不同。如何選擇和構(gòu)建適合智能計(jì)算的網(wǎng)絡(luò)架構(gòu)成為值得探討的話題。從TOP500(全球超算排行500強(qiáng))來看,InfiniBand、以太網(wǎng)占比總和超80%,其余為專用網(wǎng)絡(luò)等。本文將重點(diǎn)探討未來適用于智能計(jì)算的網(wǎng)絡(luò)協(xié)議和架構(gòu),以及梳理支撐該網(wǎng)絡(luò)架構(gòu)的網(wǎng)絡(luò)硬件設(shè)備。

AI大模型發(fā)展驅(qū)動(dòng)南北向流量向東西向流量轉(zhuǎn)變

南北向流量是指數(shù)據(jù)中心外客戶端到數(shù)據(jù)中心內(nèi)服務(wù)器的流量,東西向流量是指數(shù)據(jù)中心內(nèi)服務(wù)器間的流量。AI大模型的發(fā)展下,數(shù)據(jù)通信有2個(gè)趨勢:1)網(wǎng)絡(luò)流量大幅增長;2)南北向流量向東西向流量轉(zhuǎn)變。

?數(shù)據(jù)中心高速增長帶動(dòng)網(wǎng)絡(luò)流量增長。我國數(shù)據(jù)中心處于快速發(fā)展的階段,根據(jù)國家發(fā)改委[2],截至2022年初,我國數(shù)據(jù)中心規(guī)模達(dá)到約500萬標(biāo)準(zhǔn)機(jī)架,發(fā)改委預(yù)計(jì)每年仍將以超20%的增速快速增長?!缎滦蛿?shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》[3]計(jì)劃到2023年底,全國數(shù)據(jù)中心平均利用率力爭提升到60%以上;總算力規(guī)模超過200 EFLOPS,其中高性能算力占比達(dá)到10%。

AI大模型進(jìn)一步驅(qū)動(dòng)網(wǎng)絡(luò)流量高增。據(jù)中國移動(dòng)研究院發(fā)布的《面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書(2023年)》,智能計(jì)算需要大量并行計(jì)算,產(chǎn)生的All Reduce集合通信數(shù)據(jù)量達(dá)百GB級別。我們認(rèn)為,在大模型百花齊放的背景下,“千模大戰(zhàn)”將驅(qū)動(dòng)網(wǎng)絡(luò)流量進(jìn)一步高增。

?東西向流量占網(wǎng)絡(luò)流量80-90%。根據(jù)英偉達(dá)和思科,過去南北向流量占網(wǎng)絡(luò)流量的比例曾高達(dá)80%,主要由于早期數(shù)據(jù)中心工作負(fù)載以外部對數(shù)據(jù)中心的訪問為主。而隨著云計(jì)算、AI大模型興起,并行計(jì)算需要數(shù)據(jù)中心大量服務(wù)器協(xié)同工作,進(jìn)行數(shù)據(jù)同步與更新,在此背景下,服務(wù)器之間流量、即東西向流量增加,根據(jù)思科預(yù)測,當(dāng)前東西向流量占比或已達(dá)到80-90%。

圖表3:南北向流量向東西向流量轉(zhuǎn)變

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:英邁中國,英偉達(dá)新一代數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品培訓(xùn)會(huì),中金公司研究部

典型網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)向多核心、少收斂

主流數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)有樹型架構(gòu)和脊葉(Spine-Leaf)架構(gòu)。傳統(tǒng)樹型架構(gòu)中,帶寬逐層收斂;胖樹型(Fat-Tree)架構(gòu)是能夠?qū)崿F(xiàn)無阻塞網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu),帶寬不收斂,基本理念是使用大量中低性能交換機(jī)構(gòu)建大規(guī)模無阻塞網(wǎng)絡(luò)。脊葉架構(gòu)是大二層架構(gòu),其中Leaf層是接入交換機(jī),用于接入服務(wù)器;Spine層負(fù)責(zé)連接所有接入交換機(jī)。脊葉架構(gòu)具有易擴(kuò)展、扁平化、數(shù)據(jù)源到目標(biāo)路徑較短的特點(diǎn)。

典型網(wǎng)絡(luò)架構(gòu)從三層樹型架構(gòu)向以脊葉架構(gòu)為代表的多核心架構(gòu)轉(zhuǎn)變。據(jù)英偉達(dá)和英邁中國聯(lián)合開展的英偉達(dá)新一代數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品培訓(xùn)會(huì)公開資料,數(shù)據(jù)中心原以傳統(tǒng)三層架構(gòu)為主,多采用樹型架構(gòu),具有2個(gè)核心,向上逐層匯聚,南北向流量為主。三層網(wǎng)絡(luò)架構(gòu)分別是接入層、匯聚層和核心層。其中,接入層直接面向用戶連接,匯聚層連接接入層和核心層,提供防火墻、SSL卸載、入侵檢測、網(wǎng)絡(luò)分析等服務(wù),核心層是網(wǎng)絡(luò)的高速交換主干。由于智能計(jì)算對通信性能需求的提升,AI云端訓(xùn)練及推理需求驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)向多個(gè)核心的架構(gòu),以多層不匯聚、少收斂為流量形態(tài),東西向流量為主,并且提出網(wǎng)絡(luò)基礎(chǔ)模塊簡單、一致,部署模式可復(fù)制,自動(dòng)化管理等要求。網(wǎng)絡(luò)架構(gòu)逐漸由傳統(tǒng)三層結(jié)構(gòu)轉(zhuǎn)向新型的以葉脊結(jié)構(gòu)為代表的多核心架構(gòu)轉(zhuǎn)變。

圖表4:傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)有接入層、匯聚層和核心層

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:51CTO,中金公司研究部

圖表5:Meta三層葉脊架構(gòu)示意圖

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:Meta官網(wǎng),中金公司研究部

英偉達(dá)數(shù)據(jù)中心采用胖樹型架構(gòu)構(gòu)建無收斂網(wǎng)絡(luò),三層網(wǎng)絡(luò)連接節(jié)點(diǎn)數(shù)多于二層網(wǎng)絡(luò)。英偉達(dá)數(shù)據(jù)中心的胖樹模型相比起傳統(tǒng)胖樹模型,使用大規(guī)模高性能交換機(jī)構(gòu)建大規(guī)模無阻塞網(wǎng)絡(luò),甚至增加上行端口以避免丟包導(dǎo)致網(wǎng)絡(luò)崩潰,更類似于擴(kuò)散型架構(gòu)。層數(shù)方面,有二層網(wǎng)絡(luò)和三層網(wǎng)絡(luò)供選擇,其中三層網(wǎng)絡(luò)相比二層網(wǎng)絡(luò),能夠連接的節(jié)點(diǎn)數(shù)更多。

圖表6:英偉達(dá)一個(gè)DGX SuperPOD三層胖樹架構(gòu)連接140個(gè)節(jié)點(diǎn)

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:英偉達(dá)官網(wǎng),中金公司研究部

英偉達(dá)采用基于InfiniBand的網(wǎng)絡(luò)集群方案,在領(lǐng)先的硬件基礎(chǔ)上集成服務(wù)器網(wǎng)絡(luò),為大型企業(yè)、高校、研究機(jī)構(gòu)提供高性能的全棧式軟硬件解決方案。在智能計(jì)算高速發(fā)展的背景下,英偉達(dá)數(shù)據(jù)中心以InfiniBand賦能AI高速計(jì)算,提供高帶寬、低延時(shí)的高效網(wǎng)絡(luò)方案,滿足智算需求,提升大模型訓(xùn)練性能。

InfiniBand:從網(wǎng)絡(luò)側(cè)加速智能計(jì)算

InfiniBand是用于高性能計(jì)算的通信標(biāo)準(zhǔn)

InfiniBand是用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn)。InfiniBand是服務(wù)器硬件平臺(tái)的I/O標(biāo)準(zhǔn),通過交換機(jī)在節(jié)點(diǎn)間的點(diǎn)對點(diǎn)通道進(jìn)行數(shù)據(jù)傳輸,通道私有且受保護(hù)。InfiniBand擁有極高吞吐量和極低延遲,擴(kuò)展性好,最高能擴(kuò)展到具有數(shù)萬個(gè)節(jié)點(diǎn)的集群。實(shí)際部署時(shí),需要使用一整套符合InfiniBand標(biāo)準(zhǔn)的硬件設(shè)備。InfiniBand多應(yīng)用于高性能計(jì)算集群、人工智能和超大規(guī)?;A(chǔ)設(shè)施,為大型企業(yè)或科研中心提供服務(wù)。

每一個(gè)InfiniBand體系結(jié)構(gòu)(InfiniBand Architecture,即IBA)稱為子網(wǎng)(Subnet),每個(gè)子網(wǎng)內(nèi)最高可有65,536個(gè)節(jié)點(diǎn)(Node)。InfiniBand交換機(jī)用于子網(wǎng)范圍內(nèi),跨子網(wǎng)需要使用路由器或網(wǎng)關(guān)系統(tǒng)。每個(gè)節(jié)點(diǎn)通過網(wǎng)卡連接至子網(wǎng):使用主信號適配器(HCA)連接至CPU、內(nèi)存;通過目標(biāo)通道適配器(TCA)連接至I/O。

圖表7:InfiniBand硬件連接架構(gòu)

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:IDC InfiniBand架構(gòu)白皮書,中金公司研究部

英偉達(dá)InfiniBand Quantum-2平臺(tái)憑借超高數(shù)據(jù)吞吐和端口密度,為數(shù)據(jù)中心賦能。Quantum-2平臺(tái)主要為AI開發(fā)者與科研領(lǐng)域提供數(shù)據(jù)中心服務(wù),其單端口速率達(dá)NDR 400Gb/s。據(jù)英偉達(dá)官網(wǎng),InfiniBand Quantum-2平臺(tái)的整套設(shè)備包括網(wǎng)卡、DPU、交換機(jī)、路由器和網(wǎng)關(guān)系統(tǒng)、線纜等。

圖表8:英偉達(dá)InfiniBand平臺(tái)整套設(shè)備

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:英偉達(dá)官網(wǎng),中金公司研究部

?網(wǎng)卡(HCA):支持InfiniBand的服務(wù)器通過HCA(Host Channel Adapter,主信號適配器)將協(xié)議轉(zhuǎn)換至PCIe,英偉達(dá)ConnectX-7智能網(wǎng)卡支持超低時(shí)延、400Gb/s吞吐量。

?DPU(專用數(shù)據(jù)處理器,Data Processing Unit):DPU通過卸載CPU網(wǎng)絡(luò)傳輸、數(shù)據(jù)安全、存儲(chǔ)加速等功能,優(yōu)化數(shù)據(jù)中心的基礎(chǔ)層運(yùn)算任務(wù),將CPU的算力釋放至上層應(yīng)用,在數(shù)據(jù)中心層面實(shí)現(xiàn)算力提升。英偉達(dá)BlueField系列DPU主要支持?jǐn)?shù)據(jù)安全、網(wǎng)絡(luò)安全、儲(chǔ)存卸載等基礎(chǔ)層應(yīng)用。BlueField-3可卸載多達(dá)300個(gè)CPU內(nèi)核的I/O任務(wù)。

?交換機(jī):QM97系列每臺(tái)交換機(jī)擁有32個(gè)800G端口,等效為64個(gè)400G端口。該平臺(tái)固定配置交換機(jī)系列支持總計(jì)51.2Tb/s的雙向吞吐量,每秒能夠處理超665億個(gè)數(shù)據(jù)包。

?路由器和網(wǎng)關(guān)系統(tǒng):路由器和網(wǎng)關(guān)系統(tǒng)能夠應(yīng)對擴(kuò)張的用戶需求。英偉達(dá)Skyway InfiniBand到以太網(wǎng)網(wǎng)關(guān)設(shè)備實(shí)現(xiàn)HDR 200Gb/s InfiniBand到100Gb/s或200Gb/s以太網(wǎng)的連接,每秒吞吐量1.6Tb/s。英偉達(dá)SB7880帶管理型100Gb/s InfiniBand路由器有36個(gè)100Gb/s端口,吞吐量達(dá)7.2Tb/s。

?線纜:包括直連式銅纜(DAC)和分線纜、有源光纜(AOC)、光纖收發(fā)器。根據(jù)英偉達(dá)官網(wǎng),直連式銅纜成本低,在800G速率傳輸情況下,適用于同機(jī)柜2米內(nèi)交換機(jī)到CPU、GPU、內(nèi)存和存儲(chǔ)系統(tǒng)的鏈接;有源光纜光纖埋入連接器內(nèi),成本低,支持HDR 200G和NDR 400G在150米范圍內(nèi)的鏈接;光纖收發(fā)器成本較高,支持遠(yuǎn)距離傳輸,適用于大型數(shù)據(jù)中心。

InfiniBand發(fā)展史復(fù)盤:小眾市場推動(dòng)產(chǎn)業(yè)生態(tài)集中,向1.6T時(shí)代邁進(jìn)

InfiniBand市場從百花齊放到一枝獨(dú)秀。IBTA(InfiniBand Trade Association)于1999年成立,成立之初主要為了改良PCI總線升級慢、導(dǎo)致I/O性能限制系統(tǒng)發(fā)展的痛點(diǎn),主要成員包括Cray、Emulex、HP、IBM、Intel、Mellanox、Microsoft、Oracle、QLogic。InfiniBand推出之初,IBM、SUN、HP、Dell等多家企業(yè)發(fā)布InfiniBand相關(guān)產(chǎn)品,Cisco、QLogic等公司也相繼通過收購進(jìn)入InfiniBand市場。而在2003-2004年間,多家InfiniBand企業(yè)退出市場,到2008年主要參與者僅剩Cisco、QLogic、Voltaire和Mellanox。后Cisco轉(zhuǎn)向FCoE(Fibre Channel over Ethernet,以太網(wǎng)光纖通道)和10Gb以太網(wǎng);Intel收購QLogic的InfiniBand交換機(jī)和適配器,后推出Omni-Path架構(gòu);Mellanox于2010年收購Voltaire。由此,InfiniBand市場形成Mellanox一枝獨(dú)秀的局面。

目前,InfiniBand市場呈現(xiàn)Mellanox一枝獨(dú)秀的競爭形態(tài)。究其原因,我們認(rèn)為,2010年前,一些大型網(wǎng)絡(luò)公司看好InfiniBand在高性能計(jì)算的應(yīng)用,所以通過收購初創(chuàng)企業(yè)布局InfiniBand。但是,在2010年左右,一些企業(yè)由于以太網(wǎng)的高兼容性以及技術(shù)進(jìn)步(例如RoCE技術(shù)能夠提升以太網(wǎng)性能)放棄InfiniBand,重新轉(zhuǎn)向?qū)W⒂谝蕴W(wǎng)。后續(xù),由于InfiniBand主要服務(wù)于高性能計(jì)算的小眾市場,市場容量較低,在Mellanox占據(jù)絕對優(yōu)勢地位的情況下,其他企業(yè)進(jìn)入該市場研發(fā)成本較高,且較難獲取客戶,所以選擇放棄與Mellanox競爭,專注市場容量更高的以太網(wǎng)。除此之外,部分企業(yè)開發(fā)新的網(wǎng)絡(luò)協(xié)議對標(biāo)InfiniBand,例如Intel收購QLogic交換機(jī)業(yè)務(wù)后轉(zhuǎn)向Omni-Path賦能高性能計(jì)算等。

圖表9:InfiniBand發(fā)展進(jìn)程

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:InfiniBand Trade Association,TOP500,眾晟云,至頂網(wǎng),淘嘟嘟,中金公司研究部

InfiniBand路線圖顯示,未來預(yù)期傳輸速度已規(guī)劃至1600Gb/s。目前InfiniBand的傳輸速度為400Gb/s,路線圖顯示,IBTA計(jì)劃于2024年推出XDR 800Gb/s InfiniBand產(chǎn)品,并在2026年后推出GDR 1600Gb/s產(chǎn)品。InfiniBand的高傳輸速度打通高性能計(jì)算中數(shù)據(jù)傳輸速率瓶頸,提升吞吐量和計(jì)算效率。

圖表10:InfiniBand路線圖

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:InfiniBand Trade Association,中金公司研究部

InfiniBand能夠解決智算場景對網(wǎng)絡(luò)需求的痛點(diǎn)

InfiniBand擁有諸多優(yōu)質(zhì)特性,可以有效解決智算對網(wǎng)絡(luò)需求的痛點(diǎn)。AI訓(xùn)練側(cè)對計(jì)算和傳輸速度要求高,對應(yīng)上文中提到的智能計(jì)算需求痛點(diǎn),InfiniBand擁有諸多特性能夠?qū)?yīng)滿足需求。InfiniBand在網(wǎng)絡(luò)端提升數(shù)據(jù)傳輸性能,滿足模型訓(xùn)練的并行要求,大幅提升大模型訓(xùn)練效率。

圖表11:InfiniBand能夠解決智算痛點(diǎn)

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:英偉達(dá)官網(wǎng),中國移動(dòng)通信研究院《面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書(2023年)》,納多德,中金公司研究部

?InfiniBand網(wǎng)絡(luò)是SDN網(wǎng)絡(luò),能夠快速收斂集群網(wǎng)絡(luò)問題。SDN(software-defined networking)指軟件定義網(wǎng)絡(luò)。每個(gè)InfiniBand的二層網(wǎng)絡(luò)內(nèi)由一個(gè)具有全局視角的子網(wǎng)管理器配置網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)ID,通過控制面統(tǒng)一計(jì)算轉(zhuǎn)發(fā)路由信息,將對應(yīng)路由表下發(fā)至InfiniBand交換機(jī)。在SDN的作用下,新節(jié)點(diǎn)上線或節(jié)點(diǎn)下線也能夠由子網(wǎng)管理器自動(dòng)計(jì)算轉(zhuǎn)發(fā)路徑,可擴(kuò)展性和易維護(hù)性好,能夠提升企業(yè)采購后網(wǎng)絡(luò)上線速度,降低人工維護(hù)成本。此外,用戶能夠根據(jù)應(yīng)用屬性選擇不同的網(wǎng)絡(luò)拓?fù)洳⒖焖倥渲?,在短時(shí)間內(nèi)達(dá)到最優(yōu)性能。所以,InfiniBand具有快速上線網(wǎng)絡(luò)、調(diào)優(yōu)和維護(hù)大規(guī)模網(wǎng)絡(luò)的能力,而以太網(wǎng)調(diào)優(yōu)上千個(gè)GPU構(gòu)建的集群網(wǎng)絡(luò)需要花費(fèi)很長時(shí)間。

圖表12:InfiniBand是SDN網(wǎng)絡(luò)

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:ASC22,中金公司研究部

?InfiniBand使用基于信用的鏈路層流控機(jī)制,避免丟包。InfiniBand網(wǎng)絡(luò)架構(gòu)下的節(jié)點(diǎn)發(fā)送數(shù)據(jù)時(shí),會(huì)在SDN的控制鏈路上查詢接收方是否有buffer(緩沖區(qū))能夠接收數(shù)據(jù)。當(dāng)接收方有buffer時(shí),發(fā)送方才會(huì)啟動(dòng)傳輸。且發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過接收端可用的預(yù)置緩沖區(qū)大小,接收端完成轉(zhuǎn)發(fā)后會(huì)騰空緩沖區(qū)。該機(jī)制能夠有效避免接收方丟包導(dǎo)致網(wǎng)絡(luò)性能下降。在基于信用的鏈路層流控機(jī)制下,若物理層可靠,InfiniBand即能實(shí)現(xiàn)無損網(wǎng)絡(luò)。

圖表13:InfiniBand基于信用的鏈路層流控機(jī)制示意圖

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),中金公司研究部

?InfiniBand天然具有RDMA功能,英偉達(dá)推出GPUDirect RDMA加速GPU間數(shù)據(jù)傳輸。RDMA(Remote Direct Memory Access)使在通訊兩端的服務(wù)器實(shí)現(xiàn)數(shù)據(jù)直接傳輸。英偉達(dá)在RDMA的基礎(chǔ)上,推出GPUDirect RDMA,能夠在CPU不介入的情況下,實(shí)現(xiàn)GPU間數(shù)據(jù)傳輸。該技術(shù)能夠有效提升數(shù)據(jù)傳輸速度,提升AI計(jì)算性能。

?InfiniBand能夠在網(wǎng)計(jì)算。英偉達(dá)Mellanox引入SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技術(shù),該技術(shù)在交換芯片中集成計(jì)算單元。在智算場景中,InfiniBand能夠在轉(zhuǎn)發(fā)數(shù)據(jù)的同時(shí)在交換機(jī)進(jìn)行計(jì)算。在網(wǎng)計(jì)算避免節(jié)點(diǎn)間的多次數(shù)據(jù)傳輸,減少需要在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,從而大幅度提升計(jì)算效率。

智算網(wǎng)絡(luò):InfiniBand和以太網(wǎng)升級方案或?qū)R頭并進(jìn)

RDMA實(shí)現(xiàn)GPU間數(shù)據(jù)直接傳輸,提升傳輸速率

RDMA節(jié)省數(shù)據(jù)傳輸步驟,提升數(shù)據(jù)傳輸效率。據(jù)51CTO[4],標(biāo)準(zhǔn)GPU服務(wù)器需要通過CPU進(jìn)行數(shù)據(jù)傳輸,導(dǎo)致CPU負(fù)責(zé)大量協(xié)議開銷處理,僅有50%資源用于計(jì)算。以節(jié)點(diǎn)B向節(jié)點(diǎn)A請求數(shù)據(jù)為例,在傳統(tǒng)方案下,節(jié)點(diǎn)B首先需要向節(jié)點(diǎn)A發(fā)送請求,A端網(wǎng)卡接收到請求后,通知A端CPU,A端CPU解析該請求后將請求的數(shù)據(jù)通過網(wǎng)卡發(fā)送到B節(jié)點(diǎn)。而在RDMA協(xié)議下,節(jié)點(diǎn)B僅需要向A端發(fā)送RDMA Read請求,A端網(wǎng)卡接收到該請求后,直接通過DMA方式,在A端Host Memory中獲取請求的數(shù)據(jù),返回至B端。

圖表14:RDMA簡化通信兩端服務(wù)器數(shù)據(jù)傳輸流程

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:51CTO,中金公司研究部

數(shù)據(jù)中心跨服務(wù)器使用RDMA技術(shù)情況下,步驟仍較為繁多。聚焦數(shù)據(jù)中心的數(shù)據(jù)傳輸,標(biāo)準(zhǔn)GPU服務(wù)器架構(gòu)中,GPU通過PCIe與CPU進(jìn)行互聯(lián)。跨服務(wù)器之間的GPU數(shù)據(jù)傳輸步驟為:1)服務(wù)器內(nèi)部GPU顯存將數(shù)據(jù)通過PCIe總線傳輸至本地CPU內(nèi)存;2)由本地CPU內(nèi)存將數(shù)據(jù)拷貝至RDMA傳輸管道內(nèi)存;3)RDMA技術(shù)使數(shù)據(jù)從本地服務(wù)器內(nèi)存?zhèn)鬏斨聊繕?biāo)服務(wù)器內(nèi)存;4)目標(biāo)服務(wù)器內(nèi)存將數(shù)據(jù)通過PCIe總線傳輸至GPU顯存。在此過程中,CPU中斷開銷、內(nèi)存拷貝開銷是常見發(fā)生延遲的環(huán)節(jié)。

GPUDirect RDMA在RDMA基礎(chǔ)上升級,打通GPU數(shù)據(jù)傳輸瓶頸。英偉達(dá)推出的GPUDirect RDMA,使數(shù)據(jù)中心中的GPU和網(wǎng)卡能夠旁路CPU內(nèi)存,實(shí)現(xiàn)GPU和網(wǎng)卡的數(shù)據(jù)直連,僅需一步數(shù)據(jù)拷貝,就能將發(fā)送端GPU數(shù)據(jù)從其顯存直接傳輸至目的端的GPU顯存,加速數(shù)據(jù)傳輸。據(jù)51CTO,在AI集群中,GPUDirect RDMA能夠節(jié)省90%時(shí)延,并行計(jì)算實(shí)現(xiàn)超一倍性能提升,打通GPU數(shù)據(jù)傳輸瓶頸,有望大幅提升AI集群性能。

圖表15:RDMA將服務(wù)器內(nèi)存數(shù)據(jù)直接寫入另一臺(tái)的內(nèi)存

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:納多德官網(wǎng),中金公司研究部

圖表16:GPUDirect技術(shù)直接訪問GPU內(nèi)存數(shù)據(jù)并傳輸

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:納多德官網(wǎng),中金公司研究部

主流RDMA方案包括三種,層次結(jié)構(gòu)和網(wǎng)絡(luò)硬件設(shè)備各不相同:

?InfiniBand:InfiniBand是專為RDMA設(shè)計(jì)的網(wǎng)絡(luò),在設(shè)計(jì)之初即保證可靠傳輸,在RDMA方案中性能最優(yōu),使用InfiniBand網(wǎng)卡和交換機(jī)。

?RoCE和RoCEv2:RoCE(RDMA over Converged Ethernet)應(yīng)用于以太網(wǎng),提升數(shù)據(jù)中心的傳輸速度和功率,并降低成本。2010年起,IBTA發(fā)布第一個(gè)能夠融合于以太網(wǎng)運(yùn)行的RDMA。RoCE使用以太網(wǎng)鏈路層,但在網(wǎng)絡(luò)層仍基于InfiniBand協(xié)議。2014年發(fā)布RoCEv2,支持三層組網(wǎng),擴(kuò)展性強(qiáng)。RoCEv2將RoCE的InfiniBand網(wǎng)絡(luò)層替換為UDP/IP協(xié)議,僅在傳輸層使用InfiniBand傳輸層協(xié)議。根據(jù)浪潮網(wǎng)絡(luò)業(yè)務(wù)官微和百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),RoCEv2使用支持RDMA流控技術(shù)的以太網(wǎng)交換機(jī)和支持RoCE的網(wǎng)卡。

圖表17:RoCE方案能夠應(yīng)用于以太網(wǎng),實(shí)現(xiàn)內(nèi)存間傳輸,無需消耗CPU

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:51CTO,中金公司研究部

?iWARP:iWARP(Internet Wide Area RDMA Protocol)基于TCP使用RDMA技術(shù),但相比RoCE,大型組網(wǎng)時(shí)TCP連接仍會(huì)占用大量內(nèi)存資源,數(shù)據(jù)傳輸效率仍較低,性能差于InfiniBand和RoCE。根據(jù)浪潮網(wǎng)絡(luò)業(yè)務(wù)官微,iWARP目前較少被使用。iWARP使用普通的以太網(wǎng)交換機(jī),但需要支持iWARP的網(wǎng)卡。

軟件層面,三種方案統(tǒng)一通過Verbs API實(shí)現(xiàn)RDMA軟件棧到應(yīng)用。Verbs API是使用RDMA服務(wù)的軟件接口,實(shí)際RDMA應(yīng)用基于Verbs API編寫,或在Verbs API上封裝一層接口的中間件編寫。

圖表18:InfiniBand、RoCE、RoCEv2、iWARP層次架構(gòu)對比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:華為云,中金公司研究部

InfiniBand性能略優(yōu),但以太網(wǎng)或憑借通用性和經(jīng)濟(jì)性在長期勝出

TOP500中,自2003年起InfiniBand與以太網(wǎng)各占一席之地。從2008年起,InfiniBand和以太網(wǎng)占比總和超80%。我們認(rèn)為,InfiniBand和以太網(wǎng)在高性能計(jì)算和智能計(jì)算領(lǐng)域各有優(yōu)劣。

圖表19:InfiniBand與以太網(wǎng)對比,兩者各有優(yōu)劣

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:英偉達(dá)官網(wǎng),思騰合力,百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),中金公司研究部

我們對InfiniBand和以太網(wǎng)進(jìn)行基本對比、技術(shù)對比和實(shí)際落地場景對比。首先,我們基于兩種協(xié)議的定位、組網(wǎng)方式等方面進(jìn)行基本對比,我們觀察到以太網(wǎng)是全球使用最廣泛的網(wǎng)絡(luò)協(xié)議,但I(xiàn)nfiniBand組網(wǎng)方式較為簡便,對于具有智算需求的企業(yè)來說,采購后能較快、較易上線。

?定位:InfiniBand主要應(yīng)用于高性能計(jì)算,追求高速率和可靠性,有物理地址限制。而以太網(wǎng)在推出目的是兼容性,面向更多終端設(shè)備互聯(lián),目前在全世界范圍內(nèi)應(yīng)用廣泛。

?組網(wǎng)方式:InfiniBand由子網(wǎng)管理器統(tǒng)一配置端口地址LID號(共65,536個(gè)),實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)化,直接按LID進(jìn)行數(shù)據(jù)傳輸。而以太網(wǎng)交換機(jī)采用MAC查表尋址和存儲(chǔ)轉(zhuǎn)發(fā)的方式,基于IP地址轉(zhuǎn)發(fā)數(shù)據(jù),每個(gè)服務(wù)器需要定時(shí)發(fā)送報(bào)文以保證表項(xiàng)的實(shí)時(shí)更新,可能引起廣播風(fēng)暴。由于InfiniBand和以太網(wǎng)組網(wǎng)方式的區(qū)別,企業(yè)采購InfiniBand整套硬件設(shè)備后的上線速度遠(yuǎn)快于以太網(wǎng),并且易維護(hù)。

?網(wǎng)絡(luò)帶寬:目前InfiniBand和以太網(wǎng)的端口傳輸速率均可達(dá)800Gbps。

?規(guī)模:根據(jù)英偉達(dá)官網(wǎng),InfiniBand的規(guī)模取決于纜線類型,最大距離約10公里,具有物理地址限制,而以太網(wǎng)能夠?qū)崿F(xiàn)全球通信互聯(lián)。

從技術(shù)角度看,我們看到InfiniBand受益于協(xié)議自身的技術(shù)優(yōu)勢,能夠在數(shù)據(jù)傳輸、故障修復(fù)以及用戶對多租戶方案的要求等方面滿足智能計(jì)算要求。

?流控機(jī)制:我們在前文中提到,InfiniBand使用基于信用的鏈路層流控機(jī)制,能夠?qū)崿F(xiàn)無損網(wǎng)絡(luò)。而基于RoCEv2的以太網(wǎng)使用基于PFC(基于優(yōu)先級的流量控制,Priority Flow Control)/ECN(顯式擁塞通知,Explicit Congestion Notification)的流控機(jī)制,通過向上游設(shè)備發(fā)送PFC PAUSE幀和傳遞擁塞信息,暫停發(fā)送或降低發(fā)送速率,實(shí)現(xiàn)流量控制。

圖表20:PFC流控機(jī)制示意圖

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),中金公司研究部

?負(fù)載均衡模式:InfiniBand采用逐包自適應(yīng)路由,而以太網(wǎng)采用基于ECMP(Equal-Cost Multi-Path Routing,等價(jià)路由,是一種基于流的負(fù)載均衡策略)的方式路由。據(jù)《面向 AI 大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書(2023年)》,在AI集群中,相較于傳統(tǒng)基于流的負(fù)載均衡技術(shù),逐包自適應(yīng)路由能夠降低時(shí)延抖動(dòng)。

?故障恢復(fù):據(jù)英偉達(dá)官網(wǎng),英偉達(dá)數(shù)據(jù)中心的Quantum-2交換機(jī)具備自愈網(wǎng)絡(luò)技術(shù)(Self-Healing Network Technology),該技術(shù)使網(wǎng)絡(luò)組件能夠交換實(shí)時(shí)信息,快速計(jì)算出備用鏈路,鏈路故障恢復(fù)時(shí)間僅需1毫秒。而以太網(wǎng)需要通過路由收斂從故障中恢復(fù),相較InfiniBand的自愈網(wǎng)絡(luò)技術(shù),故障時(shí)間長。

?多租戶方案:企業(yè)構(gòu)建大規(guī)模計(jì)算集群后,通常會(huì)將算力資源池給多個(gè)租戶使用,不同租戶的智算節(jié)點(diǎn)隔離,不能相互訪問。InfiniBand原生支持多租戶組網(wǎng),而以太網(wǎng)需要通過云平臺(tái)和RoCE SDN控制器配合,將不同IP地址段劃分給不同租戶,實(shí)現(xiàn)多租戶方案。

圖表21:InfiniBand和RoCE網(wǎng)絡(luò)多租戶方案對比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),中金公司研究部

業(yè)務(wù)落地場景方面,我們認(rèn)為,RoCE方案和InfiniBand均能滿足智能計(jì)算要求,但I(xiàn)nfiniBand在實(shí)際落地時(shí)性能更優(yōu)。

?高性能網(wǎng)絡(luò)集群規(guī)模:據(jù)百度智能云《智算中心網(wǎng)絡(luò)架構(gòu)白皮書》(2023),InfiniBand能夠構(gòu)建數(shù)萬個(gè)GPU組成的網(wǎng)絡(luò)集群,且同時(shí)保證網(wǎng)絡(luò)性能;RoCEv2一般能構(gòu)建千卡規(guī)模的集群,目前少數(shù)場景可實(shí)現(xiàn)萬卡組網(wǎng),基本能夠保證網(wǎng)絡(luò)性能降低程度有限。

?通信時(shí)延:相比傳統(tǒng)以太網(wǎng),InfiniBand網(wǎng)絡(luò)延遲優(yōu)勢明顯。據(jù)英偉達(dá)DGX-1白皮書,英偉達(dá)DGX-1多系統(tǒng)集群系統(tǒng)范圍內(nèi)的延遲為1.28微秒(其中包括1.01微秒的系統(tǒng)到系統(tǒng)延遲,加0.09微秒的3次交換機(jī)轉(zhuǎn)換);而普通多系統(tǒng)集群延遲達(dá)5微秒。RoCE方案大幅降低通信時(shí)延,與InfiniBand相近,以EDR InfiniBand和100Gb以太網(wǎng)為例,當(dāng)轉(zhuǎn)發(fā)消息大小為8byte時(shí),InfiniBand延遲為0.892微秒,RoCE延遲為0.988微秒,兩者差距小于0.1微秒。

圖表22:InfiniBand和以太網(wǎng)時(shí)延對比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:納多德,中金公司研究部

圖表23:InfiniBand、RoCE、傳統(tǒng)以太網(wǎng)時(shí)延對比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

注:基于InfiniBand EDR和100Gb以太網(wǎng)

資料來源:Kachelmeier, Luke Anthony, Faith Virginia Van Wig, and Kari Natania Erickson. Comparison of high performance network options: EDR infiniband vs.100gb RDMA capable ethernet, 2016.,中金公司研究部

?運(yùn)維:InfiniBand具有天然的多租戶隔離能力、網(wǎng)絡(luò)自動(dòng)配置能力、運(yùn)維診斷能力等,而以太網(wǎng)需要人工運(yùn)維,例如數(shù)據(jù)中心每次業(yè)務(wù)變化后都需要人力進(jìn)行調(diào)試,云計(jì)算廠商可能需要配置數(shù)十人團(tuán)隊(duì)負(fù)責(zé)網(wǎng)絡(luò)調(diào)優(yōu),所以InfiniBand后期運(yùn)維復(fù)雜程度相比以太網(wǎng)較低。

?成本:基于InfiniBand的網(wǎng)絡(luò)架構(gòu)硬件供應(yīng)商僅有英偉達(dá),生態(tài)較為封閉,英偉達(dá)議價(jià)能力強(qiáng);而基于以太網(wǎng)協(xié)議的網(wǎng)絡(luò)架構(gòu)有豐富的硬件供應(yīng)商,下游客戶采購時(shí)選擇多,成本可控。所以,InfiniBand的整套硬件設(shè)備BOM成本高于以太網(wǎng),但I(xiàn)nfiniBand易維護(hù),調(diào)優(yōu)成本低。以太網(wǎng)的硬件設(shè)備成本雖低,但運(yùn)維端人力成本高于InfiniBand。

我們認(rèn)為,盡管InfiniBand當(dāng)前性能具有一定優(yōu)勢,但以太網(wǎng)具備普遍性和經(jīng)濟(jì)性,下游廠商仍可能傾向于使用以太網(wǎng)進(jìn)行智能計(jì)算。如前文所述,InfiniBand領(lǐng)先的特性和技術(shù)能夠?qū)?yīng)解決智能計(jì)算的諸多痛點(diǎn);RoCE(以太網(wǎng)+RDMA)也能夠應(yīng)對智能計(jì)算,但性能略低于InfiniBand,且配置較為復(fù)雜,可能出現(xiàn)例如PFC死鎖等問題,也無法達(dá)到無損網(wǎng)絡(luò)。但是,RoCE的BOM成本更低且使用更普遍,智能計(jì)算廠商對其認(rèn)知更充分,所以下游廠商針對智能計(jì)算需求,可能選擇RoCE方案代替InfiniBand。

著眼于高性能計(jì)算,TOP100中InfiniBand占比顯著高于以太網(wǎng)。從2014年至今,在TOP100中,InfiniBand的占比顯著高于以太網(wǎng),2020年后,InfiniBand的占比超50%。但TOP500中以太網(wǎng)占比高于InfiniBand。我們認(rèn)為,TOP100和TOP500中兩種網(wǎng)絡(luò)協(xié)議占比存在差異的原因在于:1)InfiniBand在高速率數(shù)據(jù)傳輸?shù)谋憩F(xiàn)優(yōu)于以太網(wǎng),高算力的TOP100數(shù)據(jù)傳輸要求高,所以傾向使用InfiniBand;2)InfiniBand性能優(yōu),但成本較高,需要包括交換機(jī)、網(wǎng)卡、光纜等硬件在內(nèi)的全套設(shè)備支持,所以除超高算力計(jì)算機(jī)外,在使用以太網(wǎng)能滿足需求的情況下,企業(yè)或研究機(jī)構(gòu)傾向使用以太網(wǎng)降低成本。

占比趨勢方面,在TOP500中,以太網(wǎng)占比自2015年后逐漸提升,而InfiniBand占比逐年下降;2019年后,該趨勢反轉(zhuǎn),以太網(wǎng)占比逐年下降,InfiniBand占比上升,但仍低于以太網(wǎng)。我們認(rèn)為,趨勢變化的原因在于:1)IBTA于2014年發(fā)布RoCEv2協(xié)議技術(shù)標(biāo)準(zhǔn),帶寬和傳輸效率大幅提升,加之傳統(tǒng)以太網(wǎng)兼容性強(qiáng),性能提升促使以太網(wǎng)在TOP500占比增加;2)2020年前,英特爾Omni-Path占據(jù)7-9%的TOP500份額,而后由于InfiniBand帶寬對比Omni-Path存在優(yōu)勢,所以O(shè)mni-Path占比逐漸下滑。自2022年起,Omni-Path基本消失,該部分超級計(jì)算機(jī)轉(zhuǎn)向使用InfiniBand。

圖表24:InfiniBand與以太網(wǎng)在TOP100中占比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:TOP500官網(wǎng),中金公司研究部

圖表25:InfiniBand與以太網(wǎng)在TOP500中占比

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:TOP500官網(wǎng),中金公司研究部

綜上所述,我們認(rèn)為,在高性能計(jì)算領(lǐng)域中,InfiniBand或?qū){借其性能優(yōu)勢占據(jù)一定市場份額,與以太網(wǎng)平分秋色。在智能計(jì)算領(lǐng)域,短期內(nèi)由于算力資源緊張,部分廠商選擇英偉達(dá)代建數(shù)據(jù)中心,借助InfiniBand的特性快速上線網(wǎng)絡(luò),力求在“萬模大戰(zhàn)”的時(shí)代取得領(lǐng)先;但長期,以太網(wǎng)將持續(xù)進(jìn)行性能升級,有望憑借其經(jīng)濟(jì)性和普遍性勝出。我們認(rèn)為,網(wǎng)絡(luò)架構(gòu)升級將促進(jìn)硬件設(shè)備迭代,帶來發(fā)展新機(jī)遇。

以太網(wǎng)生態(tài)硬件供應(yīng)商加碼高性能產(chǎn)品,應(yīng)對InfiniBand沖擊

以太網(wǎng)生態(tài)各環(huán)節(jié)硬件設(shè)備供應(yīng)商龍頭紛紛推出應(yīng)對智能計(jì)算的高性能產(chǎn)品,發(fā)揮自身優(yōu)勢應(yīng)對InfiniBand沖擊。自2022年末,智能計(jì)算對網(wǎng)絡(luò)通信的需求使得網(wǎng)絡(luò)架構(gòu)發(fā)生較大變化,部分云計(jì)算廠商優(yōu)先選用英偉達(dá)Mellanox基于InfiniBand協(xié)議的網(wǎng)絡(luò)架構(gòu)和整套軟硬件解決方案打造智能計(jì)算數(shù)據(jù)中心。以太網(wǎng)生態(tài)各環(huán)節(jié)硬件供應(yīng)商基于自身優(yōu)勢,力求打造高性能以太網(wǎng)應(yīng)對InfiniBand短期內(nèi)造成的挑戰(zhàn)。

?交換芯片:博通基于原有具有高緩存、擴(kuò)展性強(qiáng)、可編程等特性的Jericho交換芯片系列,在原有基礎(chǔ)上實(shí)現(xiàn)帶寬升級,于2023年4月推出Jericho3-AI。Jericho3-AI最高吞吐量為28.8Tb/s,擁有144個(gè)以106Gbps PAM4運(yùn)行的SerDes通道,支持多達(dá)18個(gè)800G/36個(gè)400G/72個(gè)200G網(wǎng)絡(luò)端口,最多連接32,000張GPU,支持構(gòu)建大規(guī)模網(wǎng)絡(luò)集群。該交換芯片在吞吐量、高密度端口、接口技術(shù)、芯片制程等各方面處于行業(yè)領(lǐng)先水平,能夠借助負(fù)載均衡功能降低擁塞、避免隊(duì)頭阻塞,有效降低以太網(wǎng)PFC死鎖風(fēng)暴的風(fēng)險(xiǎn),提升RoCE的穩(wěn)定性。

Marvell Teralynx 10是一款吞吐量達(dá)51.2Tb/s、支持800G端口的可編程5nm交換芯片,面向超大規(guī)模數(shù)據(jù)中心。Teralynx 10的特性包括:擁有512個(gè)SerDes通道,支持25 Gbps、50 Gbps和100 Gbps I/O速度;配備擁塞感知路由,能夠減少網(wǎng)絡(luò)瓶頸和擁塞;具備手電筒遙測(Flashlight telemetry)功能,實(shí)現(xiàn)P4帶內(nèi)網(wǎng)絡(luò)遙測。Teralynx 10旨在解決通信帶寬爆炸式增長的問題,同時(shí)滿足嚴(yán)格的低功耗和成本要求。

思科推出Silicon One G200和Silicon One G202,專為智能計(jì)算設(shè)計(jì),集成多功能。Silicon One G200最高吞吐量為51.2Tb/s,支持64個(gè)800G網(wǎng)絡(luò)端口,也能靈活支持10G-400G端口。G200采用P4可編程并行數(shù)據(jù)包處理器,每秒啟動(dòng)超4350億次查找,該數(shù)據(jù)包處理架構(gòu)能夠降低功耗和時(shí)延。并且,與博通和Marvell類似,G200也具有先進(jìn)的負(fù)載均衡技術(shù),以減少網(wǎng)絡(luò)擁塞,提升基于以太網(wǎng)的網(wǎng)絡(luò)架構(gòu)的性能。

圖表26:全球領(lǐng)先通信設(shè)備廠商的智能計(jì)算交換芯片產(chǎn)品

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

資料來源:各公司官網(wǎng),TechWeb,半導(dǎo)體行業(yè)觀察,中金公司研究部

?交換機(jī):Arista基于博通高性能交換芯片,打造適合智能計(jì)算的交換機(jī)產(chǎn)品。Arista推出7800 AI交換機(jī)產(chǎn)品,在RDMA的基礎(chǔ)上,打造無阻塞的網(wǎng)絡(luò)架構(gòu),通過Arista EOS(Extensible Operating System)操作系統(tǒng)提供靈活的負(fù)載均衡,支持流量控制和ECN、更好地監(jiān)測時(shí)延、PFC等功能,并針對AI/ML提供優(yōu)化API,基于安全打造適用于智能計(jì)算的網(wǎng)絡(luò)集群,在鏈路層提升以太網(wǎng)性能。

?網(wǎng)卡:AMD將于2023年內(nèi)推出Giglio DPU,接管基礎(chǔ)架構(gòu)管理,作為新型專用處理器提升基于以太網(wǎng)的云數(shù)據(jù)中心性能。Giglio DPU將在網(wǎng)卡的基礎(chǔ)上集成16x A72 ARM處理器、專用數(shù)據(jù)加密和存儲(chǔ)卸載引擎。Giglio DPU能夠接管基礎(chǔ)架構(gòu)管理,從CPU卸載虛擬化、SDN安全、存儲(chǔ)等功能,支持包括ECMP、負(fù)載均衡、基于流的遙測等在內(nèi)的提升RoCE性能的功能。

多家科技巨頭聯(lián)合成立UEC,以聯(lián)盟形式打造高性能以太網(wǎng),應(yīng)對InfiniBand部署率提升。據(jù)Coherent和思科4QFY23業(yè)績會(huì),AIGC快速迭起的浪潮之下,云計(jì)算廠商短期主要基于InfiniBand協(xié)議打造網(wǎng)絡(luò)架構(gòu),我們認(rèn)為在具體形式上會(huì)通過尋求英偉達(dá)代建數(shù)據(jù)中心的方式來滿足。為應(yīng)對InfiniBand部署率提升可能帶來的以太網(wǎng)市占率下降,據(jù)Linux基金會(huì),2023年7月,UEC(Ultra Ethernet Consortium,超以太網(wǎng)聯(lián)盟)由硬件設(shè)備廠商博通、AMD、思科、英特爾、Arista、Eviden、HP和超大規(guī)模云廠商Meta、微軟共同創(chuàng)立,在物理層、鏈路層、傳輸層和軟件方面致力于開發(fā)開放的“Ultra Ethernet”解決方案,旨在推進(jìn)高性能以太網(wǎng)發(fā)展以應(yīng)對增長的智能計(jì)算通信需求。據(jù)UEC主席Metz,UEC將以新形式進(jìn)行傳輸層處理,在非無損網(wǎng)絡(luò)的情況下也可實(shí)現(xiàn)以太網(wǎng)性能提升,較RDMA 更靈活?;赨EC提供的功能,以太網(wǎng)將不會(huì)發(fā)生隊(duì)頭阻塞,可實(shí)現(xiàn)以最小的丟包控制到目標(biāo)主機(jī)最終鏈路上的扇入,并能減少消息延遲,無需針對網(wǎng)絡(luò)和工作負(fù)載調(diào)整擁塞算法參數(shù),網(wǎng)絡(luò)擴(kuò)展性強(qiáng),支持1,000,000個(gè)端點(diǎn)。我們認(rèn)為,UEC傳輸協(xié)議未來有望超越RoCE協(xié)議,力爭對標(biāo)InfiniBand性能,實(shí)現(xiàn)以太網(wǎng)在智算領(lǐng)域滲透率的提升。

圖表27:UEC聯(lián)盟成員

中金 | AI浪潮之巔:InfiniBand VS以太網(wǎng),智算中心網(wǎng)絡(luò)需求迎升級

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多