电竞比分网-中国电竞赛事及体育赛事平台

分享

能效提升3倍,登臨科技展示國內(nèi)唯一量產(chǎn)GPU實力

 長沙7喜 2021-07-17
機器之心報道
機器之心編輯部

AI 時代應該構(gòu)建什么樣的 GPU?這家創(chuàng)業(yè)公司給出了自己的答案。

去年 5 月,1750 億參數(shù)的超大預訓練模型 GPT-3 讓世人驚艷,AI 模型體量大規(guī)模增長之后產(chǎn)生的效果出乎預料,引發(fā)了新一輪的技術(shù)發(fā)展。今年,一些 AI 模型的體量已經(jīng)達到了萬億參數(shù),這樣的超級模型需要無數(shù) GPU 進行并聯(lián)計算。

然而不斷膨脹的算力需求成為了挑戰(zhàn):摩爾定律已逐漸走向盡頭。而在算力之外,硬件功耗與散熱的挑戰(zhàn)也阻礙著 AI 應用的落地。

7 月 10 日,在上海舉行的 2021 年世界人工智能大會(WAIC)開發(fā)者論壇上,登臨科技創(chuàng)始人兼 CEO 李建文圍繞「GPU+: AI 新時代下的軟硬件協(xié)同異構(gòu)計算平臺」為主題進行了演講。在活動中,李建文給線上線下兩萬多位觀眾展示的了登臨科技 GPU + 產(chǎn)品的卓越能效。這家國內(nèi)少有的,選擇 GPU 賽道、直面英偉達的創(chuàng)業(yè)公司在近期受到了社會各界的強勢圍觀。

圖片

登臨科技創(chuàng)始人兼 CEO 李建文在 AI 開發(fā)者論壇上。

「在服務器及云端大規(guī)模應用 GPU,是因為它的通用性好,可以運行各類神經(jīng)網(wǎng)絡,這也與云端計算的需求非常吻合。但另一方面,GPU 計算 AI 負載時的效率還不是很高,」李建文說道?!傅桥R科技 GPU + 的核心理念是繼承現(xiàn)有軟件生態(tài)和 GPU 的通用性,又通過架構(gòu)創(chuàng)新來彌補 GPU 的缺點。」

在深度學習引領(lǐng)的最近一波 AI 浪潮中,GPU 扮演著重要作用,大量開源生態(tài)的應用開發(fā)基礎(chǔ)設施是在英偉達 CUDA 軟件生態(tài)上完成的。如何保持客戶已有的投入,是 AI 技術(shù)產(chǎn)業(yè)化的重要課題。

與很多科技公司選擇「特定領(lǐng)域體系結(jié)構(gòu)」ASIC 的方向不同,登臨科技希望能夠找到一種與現(xiàn)有 GPU 產(chǎn)品兼容,同時又可以大幅度提高 AI 模型計算效率的技術(shù)路線。

圖片


登臨科技提出的「GPU+」是一種軟件定義的片內(nèi)異構(gòu)通用人工智能處理器。傳統(tǒng)的異構(gòu)計算是以不同種類的芯片在系統(tǒng)上實現(xiàn)的,這種方式面臨著芯片間數(shù)據(jù)傳遞的瓶頸。登臨科技的 GPU + 則在片內(nèi)集成了多種計算引擎,從而解決了這個難題。

「我們把不同的計算引擎,GPGPU 和針對張量計算相關(guān)的計算引擎集成到了一起,調(diào)度引擎可以在高維度來控制算力的分配。登臨的片內(nèi)異構(gòu)計算可以擴展到其他的異構(gòu)引擎,這些引擎既可以并行計算,也可以獨立工作。另外我們還有自主研發(fā)的高吞吐數(shù)據(jù)交換網(wǎng)絡?!估罱ㄎ慕榻B道。

這種架構(gòu)在數(shù)據(jù)流、執(zhí)行模型、內(nèi)存管理和數(shù)據(jù)存儲上,相對于傳統(tǒng) GPU 都有非常大的改進。由于在更高的抽象維度上進行調(diào)度和算力分配,它增加了計算密度,提高了效率,極大地降低了 GPU 對于外部帶寬的需求。

目前,登臨科技 Goldwasser 系列產(chǎn)品已實現(xiàn)規(guī)模量產(chǎn)。Goldwasser 系列產(chǎn)品:包括邊緣計算產(chǎn)品 Goldwasser UL,功率 25-35W,INT8 算力 32-64TOPS;半高半長的服務器計算卡 Goldwasser L,功耗 40-70W,提供 128-256TOPS 算力;另有一種全高全長的 Goldwasser XL,輸出 512TOPS 算力。

圖片


在實測過程中,登臨的 GPU + 在 40W TDP 時輸出了 128TOPS 算力,和國際主流產(chǎn)品對比其功耗更低,性能更高。在同樣的工藝上,GPU + 可以以更小的芯片面積,在同樣功耗下,在不同神經(jīng)網(wǎng)絡上提升 3-10 倍計算效率,并同時可減低芯片性能對外存吞吐的依賴。

圖片


在軟件層面上,Goldwasser 支持目前開發(fā)者最常用的 GPU 編程方式,李建文介紹說,GPU + 在提供兼容 CUDA/OpenCL 硬件加速能力的前提下,全面支持各類流行的人工智能網(wǎng)絡框架及底層算子。

登臨開發(fā)的 Hamming 工具鏈,不僅支持傳統(tǒng) GPU 使用的硬件加速方式,PyTorch、TensorFlow、飛槳等國內(nèi)外主流深度學習框架,在 CPU 適配上也支持國內(nèi)外主流 X86 和 ARM 產(chǎn)品。登臨也和多家服務器廠商合作,適配了多種服務器。對于企業(yè)客戶來說,原本在 GPU 及 CUDA 平臺上開發(fā)的程序,可以無縫遷移至登臨的產(chǎn)品上。

「從應用場景來看,今天在 GPU 上運行的所有應用都能在我們的產(chǎn)品上運行。而針對 AI 應用,Goldwasser 可以用更高的效率來完成?!估罱ㄎ恼f道。

GPU+ 的異構(gòu)設計讓客戶可以在現(xiàn)有生態(tài)投入的基礎(chǔ)上無縫轉(zhuǎn)換,同時顯著提升計算效率,并降低外部計算帶寬的需求,這種方式可以大幅度降低服務器總體使用成本(TCO) 。登臨選擇 GPU + 異構(gòu)架構(gòu)的首個產(chǎn)品化方向,將成為未來芯片 AI 算力提升的一個有效途徑。

登臨科技成立于 2017 年 11 月,總部位于上海,在硅谷、成都、杭州等城市均設有研發(fā)中心。目前,首款基于 GPU + 架構(gòu)的 Goldwasser 系列產(chǎn)品已在多個行業(yè)的領(lǐng)軍企業(yè)進行量產(chǎn)導入,并得到客戶的積極反饋。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多