电竞比分网-中国电竞赛事及体育赛事平台

分享

AI產(chǎn)業(yè)背后的大基建,誰(shuí)會(huì)成為大基建背后的贏家?

 山峰云繞 2023-03-15 發(fā)布于貴州

https://www.toutiao.com/article/7210232882541888000/?log_from=ca57f5d94b20a_1678809963024

#科技之巔#

隨著ChatGPT的火爆,它帶動(dòng)了一些相關(guān)的概念,其中最受關(guān)注的無(wú)疑是顯卡行業(yè)。如果你現(xiàn)在瀏覽英偉達(dá)的官網(wǎng),你會(huì)發(fā)現(xiàn)他們已經(jīng)自稱為人工智能計(jì)算的世界領(lǐng)導(dǎo)者。縱使科技風(fēng)云變幻,唯有我黃教主啊穩(wěn)坐釣魚臺(tái)。

在過(guò)去的兩年中,由于某些難以言傳的原因,顯卡供應(yīng)緊缺。也許是因?yàn)槿斯ぶ悄艿臒岢痹俅尉硗林貋?lái),而ChatGPT爆發(fā)后,英偉達(dá)的股價(jià)從2023年1月開始飆升。毫無(wú)疑問(wèn),他們是這次AI大戰(zhàn)的贏家。甚至背后為英偉達(dá)提供PCB主板的惠州盛宏科技也隨之起飛。

今天我們來(lái)談?wù)揂I產(chǎn)業(yè)背后的大基建。雖然這是一個(gè)虛擬的行業(yè),但它最終還是依靠實(shí)體計(jì)算工具的支持。隨著AI的快速發(fā)展,這個(gè)基建規(guī)??赡艹尸F(xiàn)指數(shù)級(jí)的擴(kuò)張。可以說(shuō),這是計(jì)算機(jī)發(fā)明以來(lái)人類對(duì)算力需求最高漲的時(shí)代。

那下一步,我們應(yīng)該注意些什么呢?在此之前,每一次ChatGPT訓(xùn)練都需要使用10,000個(gè)英偉達(dá)A100GPU芯片。因此,每次訓(xùn)練的成本約為450萬(wàn)美元左右。這是相當(dāng)大的成本,而現(xiàn)在的用戶數(shù)量已經(jīng)突破了1億人。據(jù)說(shuō),為了滿足如此龐大的需求,至少需要6.9萬(wàn)塊A100GPU。這些GPU不僅要用于訓(xùn)練,還要負(fù)責(zé)用戶實(shí)際訪問(wèn)時(shí)的推理過(guò)程,因此,用戶數(shù)量越大,對(duì)于GPU的需求量也越大。

現(xiàn)在,讓我們從AI產(chǎn)業(yè)與GPU背后的邏輯關(guān)系開始談起。第一,一種模式的訓(xùn)練本質(zhì)上是什么?在底層,這是一種乘積累加運(yùn)算,先進(jìn)行乘法,再將結(jié)果加起來(lái)。無(wú)論是處理圖像、文字還是聲音,任何深度學(xué)習(xí)過(guò)程都基于這個(gè)簡(jiǎn)單的運(yùn)算。從字面上看,這一過(guò)程就是不斷提取權(quán)重的過(guò)程。因此,對(duì)于AI模型的訓(xùn)練來(lái)說(shuō),相應(yīng)芯片的計(jì)算能力是非常關(guān)鍵的。

最初,像吳恩達(dá)加入谷歌的那個(gè)時(shí)期,AI的訓(xùn)練使用的是CPU。很明顯,CPU有一個(gè)問(wèn)題,即大部分電路都是控制單元和存儲(chǔ)單元,而預(yù)算單元的比重相對(duì)較低。因?yàn)镃PU注重邏輯編程,而不是用于大規(guī)模并行計(jì)算,所以后來(lái)大家嘗試使用GPU進(jìn)行計(jì)算。

GPU的預(yù)算單元比重很大,而且可以進(jìn)行并行計(jì)算,因此很適合用于AI的訓(xùn)練。在這里,我們要知道,GPU訓(xùn)練AI實(shí)際上有些大材小用,因?yàn)锳I模型的數(shù)據(jù)精度通常要低于游戲?qū)︿秩镜囊蟆S捎谟?xùn)練AI的過(guò)程與游戲畫面渲染本質(zhì)上具有數(shù)學(xué)方面的一致性,因此,GPU作為可觸及的芯片并具備大規(guī)模并行架構(gòu),用于訓(xùn)練AI是最合適不過(guò)的。

然而,無(wú)論是CPU還是GPU,它們都不夠徹底,因?yàn)樗鼈兌蓟隈T諾伊曼架構(gòu),是通用處理器。因此,它們存在所謂的馮諾伊曼瓶頸。這意味著,無(wú)論是CPU還是GPU,每次運(yùn)算的結(jié)果都必須先保存在寄存器中,然后在下一次運(yùn)算時(shí)再調(diào)用。由于CPU或GPU的運(yùn)算單元需要經(jīng)常訪問(wèn)計(jì)算器,因此限制了數(shù)據(jù)的吞吐量,并且能耗也非常高。

因此,谷歌推出了所謂的TPU,張量處理單元,專門為深度學(xué)習(xí)開發(fā)的一種固定架構(gòu)的芯片。在深度學(xué)習(xí)中,張量可以被理解為一種數(shù)據(jù)容器或一種n維數(shù)據(jù)陣列。從左到右,它們分別是0維張量、1維張量、2維張量和3維張量。大多數(shù)人已經(jīng)見過(guò)這些深度學(xué)習(xí)中常見的數(shù)據(jù)矩陣,這就是張量的含義。

TPU是一種專門針對(duì)AI訓(xùn)練和推理所研發(fā)的ASIC,是一種專門的定制產(chǎn)品。與CPU和GPU相比,TPU大大降低了馮諾伊曼的瓶頸。其工作步驟如下:首先,將參數(shù)從內(nèi)存中加載到乘法器和加法器的矩陣中,然后將數(shù)據(jù)從內(nèi)存中加載。當(dāng)一個(gè)乘法被執(zhí)行后,計(jì)算結(jié)果會(huì)傳遞到下一個(gè)乘法器,同時(shí)執(zhí)行加法操作。這樣,在大量運(yùn)算和數(shù)據(jù)傳遞中,就不需要頻繁訪問(wèn)內(nèi)存。這是因?yàn)殡娐返脑O(shè)計(jì)者知道具體要跑什么樣的算法,所以在物理架構(gòu)上直接針對(duì)這個(gè)算法來(lái)實(shí)現(xiàn)操作。這種設(shè)計(jì)顯著提高了數(shù)據(jù)吞吐量,同時(shí)能耗也可以控制得比較小。目前,谷歌的TPU已經(jīng)迭代了四個(gè)版本,單片已經(jīng)達(dá)到了每秒275萬(wàn)億次運(yùn)算。

然而,TPU作為一種ASIC芯片,它有一個(gè)問(wèn)題,那就是它是固定函數(shù)的,意味著它只能用于一種算法,一旦被設(shè)計(jì)出來(lái)就不能干別的了。但是,AI領(lǐng)域的進(jìn)展比較迅速,一些新的架構(gòu)和模型出來(lái)以后,原來(lái)的芯片可能就不能用了。這時(shí),我們可以考慮一種折中的辦法,既能提高運(yùn)算量,又具備一定的迭代能力,那就是FPGA,即現(xiàn)場(chǎng)可編程邏輯陣列。FPGA是一種可以編程的芯片,可以針對(duì)特定的應(yīng)用進(jìn)行快速開發(fā)。相比ASIC,F(xiàn)PGA的門檻比較低,開發(fā)效率也比較高,而且設(shè)計(jì)流程比較簡(jiǎn)單,因此這也是用于AI訓(xùn)練的一種芯片方案。這兩種方案實(shí)際上并非取代關(guān)系,只是服務(wù)不同規(guī)模。

舉例來(lái)說(shuō),ASIC的NRE費(fèi)用是150萬(wàn)美元,但是單位費(fèi)用只有4美元,而FPGA的NRE費(fèi)用是零,但是單位費(fèi)用是8美元。兩種方案存在一個(gè)平衡點(diǎn),即在低于40萬(wàn)個(gè)單位時(shí)。ASIC實(shí)際上比較昂貴,F(xiàn)PGA比較便宜,但超過(guò)40萬(wàn)個(gè)單位后,兩者的經(jīng)濟(jì)性就對(duì)調(diào)了。

因此,這里存在一個(gè)規(guī)?;膯?wèn)題,這也就意味著兩種芯片的部署階段有所區(qū)別。例如,在AI研發(fā)過(guò)程中或者剛剛推向市場(chǎng)時(shí),使用FPGA來(lái)降低成本會(huì)更加適合,關(guān)鍵是可以快速迭代應(yīng)屆方案,因?yàn)樾枰粩嗟貎?yōu)化調(diào)整。而在產(chǎn)品相對(duì)穩(wěn)定、需要大規(guī)模部署時(shí),ASIC的優(yōu)勢(shì)就比較明顯了,尤其是對(duì)于邊緣計(jì)算來(lái)說(shuō),芯片越小越好,這樣就可以繼承到一些IOT設(shè)備中。

在AI算力需求暴增的今天,這些工具廠商的前景是很大的。作為世界上最大的獨(dú)立顯卡開發(fā)商,英偉達(dá)在人工智能領(lǐng)域恰逢其時(shí),如魚得水,長(zhǎng)袖善舞。但是老黃其實(shí)也不能太驕傲,因?yàn)橐坏〢I大規(guī)模產(chǎn)業(yè)化,就會(huì)有競(jìng)爭(zhēng)者加入。在ASIC和FPGA這條路上的AI芯片公司就有很多,其中就有可能會(huì)誕生下一個(gè)英偉達(dá)。這里有個(gè)問(wèn)題需要解釋一下,既然ASIC和FPGA更適合做AI訓(xùn)練,那么為什么大家都在用英偉達(dá)的GPU呢?

一方面是因?yàn)橹苯硬捎矛F(xiàn)成的GPU比較方便,而且英偉達(dá)的CUDA也比較成熟,對(duì)開發(fā)者比較友好,所以很多數(shù)據(jù)中心都使用英偉達(dá)的GPU,只需要直接調(diào)用就可以了,路徑實(shí)際上是比較成熟方便的。另一方面是因?yàn)橛ミ_(dá)為了迎合AI,也在他的GPU架構(gòu)中增加了tensorcore張量核心來(lái)適配AI訓(xùn)練的場(chǎng)景,開發(fā)者也很容易就能夠調(diào)用。2017年英偉達(dá)發(fā)布了Volta架構(gòu),第一次在GPU中增加了專門做張量計(jì)算的核心。

根據(jù)前面所講的,這個(gè)就是專門用來(lái)做AI訓(xùn)練的。盡管整個(gè)GPU是一個(gè)混合精度多功能的,但是還是針對(duì)AI做的優(yōu)化。不久之后,英偉達(dá)又發(fā)布了Turing架構(gòu)。這一架構(gòu)允許GeForce系列的產(chǎn)品,也支持張量核心。這意味著一個(gè)用來(lái)打游戲的顯卡也可以做AI訓(xùn)練。當(dāng)然,在GeForce中,張量核心的任務(wù)不是用來(lái)訓(xùn)練AI的,而是用來(lái)做圖像銳化處理的。英偉達(dá)于2020年發(fā)布了一個(gè)Ampere架構(gòu),它是一個(gè)專門為數(shù)據(jù)中心開發(fā)的A100GPU。這個(gè)A100是開頭提到的ChatGPT,用來(lái)做AI訓(xùn)練的那個(gè)芯片。

現(xiàn)在A100已經(jīng)過(guò)時(shí)了,最新的產(chǎn)品叫做H100,性能提升了9倍,用8,000塊GPU來(lái)訓(xùn)練一個(gè)3,950億參數(shù)的AI模型。A100需要7天,而H100只需要20個(gè)小時(shí)。這意味著,英偉達(dá)的算力核彈將在基礎(chǔ)設(shè)施層面加速AI的進(jìn)化。目前看來(lái),AI訓(xùn)練的大門幾乎都是由英偉達(dá)主宰,因?yàn)樗贕PU創(chuàng)造出了一系列豐富的解決方案。

除了像谷歌這樣的企業(yè)會(huì)自己開發(fā)TPU之外,大部分的公司,包括微軟在內(nèi),都采用英偉達(dá)的產(chǎn)品。當(dāng)然,英特爾、AMD、高通、IBM、亞馬遜等大廠也在積極布局,但更傾向于在ASIC和FPGA領(lǐng)域探索。因此,到目前為止,市場(chǎng)格局還沒(méi)有確定,因?yàn)檎缜懊嫣岬降?,ASIC和FPGA在人工智能領(lǐng)域理論上比GPU有更多的優(yōu)勢(shì),特別是在大規(guī)模部署后,成本優(yōu)勢(shì)將進(jìn)一步反映出來(lái)。而英偉達(dá)的GPU呢,都屬于高性能產(chǎn)品。

它不僅可以做AI加速,還可以適用于科研和商業(yè)的很多領(lǐng)域,比如說(shuō)流體力學(xué)計(jì)算等等。長(zhǎng)遠(yuǎn)來(lái)看,GPU在AI產(chǎn)業(yè)化的競(jìng)爭(zhēng)中性價(jià)比可能會(huì)逐步喪失。前面提到AI芯片是分為訓(xùn)練和推理,相當(dāng)于一個(gè)是在構(gòu)建這個(gè)模型,一個(gè)是在執(zhí)行這個(gè)模型。所以結(jié)合前面的講解,F(xiàn)PGA一般是數(shù)據(jù)中心用的比較多,而ASIC更多的是邊緣計(jì)算場(chǎng)景,也就是在終端設(shè)備上。從這個(gè)角度來(lái)看的話,ASIC板塊應(yīng)該不會(huì)存在絕對(duì)意義上的霸主,因?yàn)檫@個(gè)東西一般都是終端設(shè)備廠家自己去設(shè)計(jì)。

當(dāng)然也會(huì)存在很多的創(chuàng)業(yè)公司來(lái)提供相應(yīng)的服務(wù)。但是FPGA不同?,F(xiàn)在全球的FPGA市場(chǎng)基本上是被AMD、英特爾、Lettice、Microsemi四大廠商所壟斷,市占率高達(dá)96%以上。其中,AMD是因?yàn)槭召?gòu)了FPGA商業(yè)化的鼻祖賽靈思,英特爾是因?yàn)槭召?gòu)了FPGA的發(fā)明者Altera公司。所以兩家巨頭一躍就成為了FPGA巨商。

在AI訓(xùn)練芯片領(lǐng)域,AMD和英特爾也是躊躇滿志,這個(gè)格局基本上是不會(huì)有太大變化的,因?yàn)榇蟛糠值膶@技性谶@些廠家手里。除了GPU、ASIC和FPGA之外,行業(yè)還有第四極,就是IPU這方面。最具代表性的公司是英國(guó)的Graphcore。它的IPU實(shí)際上是專門用來(lái)做AI任務(wù)的一種通用處理器。

你可以把它看作是一種AI領(lǐng)域的GPU。這方面的創(chuàng)業(yè)公司其實(shí)還是挺多的。說(shuō)不定就會(huì)有一家AI芯片領(lǐng)域的英偉達(dá)出來(lái)。這些創(chuàng)業(yè)公司的背后投資方也都包括那些常見的互聯(lián)網(wǎng)巨頭。所以英偉達(dá)的處境只是目前看來(lái)非常得意,長(zhǎng)遠(yuǎn)來(lái)看還是挺有壓力的。所以在ChatGPT帶火了新一輪的AI熱之后,它背后的這種算力基建也會(huì)同步爆發(fā)。

一方面數(shù)據(jù)中心會(huì)更加強(qiáng)化AI相關(guān)的硬件基礎(chǔ)設(shè)施,而IAAS行業(yè)呢也會(huì)出現(xiàn)垂直的AI賽道。另一方面,AI芯片也會(huì)成為巨頭爭(zhēng)奪的下一個(gè)城池。很多創(chuàng)業(yè)公司都在成長(zhǎng)。所以相比大語(yǔ)言模型,我個(gè)人更感興趣半導(dǎo)體行業(yè)的格局演變。那是最有趣的地方。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多