电竞比分网-中国电竞赛事及体育赛事平台

分享

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

 天承辦公室 2020-06-10
新智元導(dǎo)讀】數(shù)據(jù)、算法和算力被稱為“AI三要素”。今天,面對超大數(shù)據(jù)量、算法策略失效、算力不足等新問題,過去的方法已經(jīng)不再適用。依圖科技CTO、IEEE Fellow顏水成博士以AI學(xué)者和產(chǎn)業(yè)從業(yè)者的雙重視角,對如何解決目前圍繞“AI三要素”的新問題分享了自己的真知灼見。若想了解更多AI資訊,歡迎來新智元 AI 朋友圈與大咖一起討論~
依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

各位領(lǐng)導(dǎo)、各位朋友,大家好!

今天我是以一個新的角色來跟大家分享的。我是一名學(xué)者,同時也是一個產(chǎn)業(yè)界的從業(yè)者,我想從這兩個身份的角度跟大家分享過去幾年“AI三要素”的發(fā)展給我們帶來了哪些新的機遇。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

作為依圖的CTO,首先和大家分享一下依圖AI的定位。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

依圖其實是從算法起家,逐步布局智能城市領(lǐng)域,后來把業(yè)務(wù)拓展到了智慧醫(yī)療,同時基于算力的考慮,在三年前開始布局芯片。

“求索”芯片發(fā)布以后,依圖完成了從AI軟件提供商向AI基礎(chǔ)設(shè)施提供商和AI解決方案提供商的升級,同時也在制藥維度有所布局,我們希望通過AI技術(shù)加速和癌癥相關(guān)藥物研制的效能。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

在過去四年中,大家對“AI三要素”關(guān)注的方式發(fā)生了極大的變化,過去只要是AI,業(yè)界就非常開心、愿意投資,到了2017年業(yè)界要敦促AI落地,到了2018年還需要讓AI商業(yè)模式變得非常清晰。

要想讓好的商業(yè)模式回歸商業(yè)的本質(zhì),最核心的就是兩點:首先是達到精度的極限,其次是達到速度的極限。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

要想達到精度的極限,因為數(shù)據(jù)和算力的約束,其實當(dāng)前的峰點性能已經(jīng)從學(xué)術(shù)界開始轉(zhuǎn)移到了工業(yè)界。

要想追求速度的極限,重點要實現(xiàn)AI算法和AI芯片的相互優(yōu)化,所以現(xiàn)在AI的焦點已經(jīng)慢慢地從訓(xùn)練側(cè)向推理側(cè)轉(zhuǎn)移。

超大數(shù)據(jù)環(huán)境下的算法策略失效問題

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

首先從數(shù)據(jù)的維度來看,大家都在說要研究大數(shù)據(jù),其實不是的。現(xiàn)在的數(shù)據(jù)研究已經(jīng)分成了三個不同的等級:小數(shù)據(jù)、大數(shù)據(jù)和超大數(shù)據(jù)。

十五年前,我在研究人臉識別的時候,樣本只有15個人,每個人一張圖片,當(dāng)時我們想出了一些很奇怪的算法,比如把圖像看成一個矩陣,通過2D形式提升人臉識別的性能。

但當(dāng)面對大數(shù)據(jù)的時候,以前所有的這些東西就沒有任何價值了。同樣,當(dāng)我們從大數(shù)據(jù)轉(zhuǎn)向超大數(shù)據(jù)時,需要應(yīng)付的是城市級的應(yīng)用場景。在這種情況下更需要思考,現(xiàn)在最主流的深度學(xué)習(xí)的各種常見的策略,面對超大數(shù)據(jù)還有沒有效?

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

為此,我們做了一些Tolerance實驗,按數(shù)據(jù)規(guī)模分成小、大和超大三個等級,采用當(dāng)前常見的提升深度學(xué)習(xí)訓(xùn)練的策略,讓數(shù)據(jù)分布更加優(yōu)化、讓網(wǎng)絡(luò)結(jié)構(gòu)變得更大,讓網(wǎng)絡(luò)結(jié)構(gòu)更好優(yōu)化等等,同時對數(shù)據(jù)進行清理。結(jié)果發(fā)現(xiàn),面對超大數(shù)據(jù),有些策略還有用,而有些策略就一點價值也沒有了。

比如優(yōu)化數(shù)據(jù)分布,在大數(shù)據(jù)場景中還繼續(xù)有效,但到了超大數(shù)據(jù)場景收益逐漸收斂。增大網(wǎng)絡(luò)模型在小的數(shù)據(jù)集上效果并不是很明顯,到了超大數(shù)據(jù)集的時候價值就變得越來越大。優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)在小的數(shù)據(jù)集上的效果非常好,到了超大數(shù)據(jù)業(yè)務(wù)場景時,其實已經(jīng)沒什么太大的價值了。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

同樣,在面對超大數(shù)據(jù)的時候,數(shù)據(jù)清理也變得沒有太大的價值。另外,在小規(guī)模數(shù)據(jù)的情況下,大網(wǎng)絡(luò)發(fā)揮的價值是非常小的,達不到量級的提升,而在超大規(guī)模數(shù)據(jù)下,其優(yōu)勢就非常明顯了。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

數(shù)據(jù)優(yōu)化策略方面我們也在調(diào)整性別和人種的分布,無論是大數(shù)據(jù)還是超大數(shù)據(jù)都非常有價值,但是數(shù)據(jù)清理方面,大家常見的這種Trick,小數(shù)據(jù)集上是有效果的,到了大數(shù)據(jù)集上就沒有了明顯的效果。

“產(chǎn)學(xué)結(jié)合”解決AI算力短缺

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

在算力方面的變化趨勢同樣明顯。NAS第一版平均每天訓(xùn)練只需要80多個GPU,到了Facebook的Instagram研究,已經(jīng)需要將近7400個GPU了。第一版的BERT需要256TPU。在這種巨大的算力要求面前,學(xué)術(shù)界實際上很難進行有價值、有影響力的工作,因為沒有這樣超大GPU集群,算力遠遠跟不上。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

綜合起來可以發(fā)現(xiàn),目前,如果追求精度極限,需要閉環(huán)的超大數(shù)據(jù)集,包括大型GPU算力集群,這些都是學(xué)術(shù)界缺乏的,但正是產(chǎn)業(yè)界具備很大優(yōu)勢的領(lǐng)域。

同時,有些達到很好峰點性能的算法和模型,產(chǎn)業(yè)界并沒有公開發(fā)表,學(xué)術(shù)界并不知道,所以我們經(jīng)常在一些學(xué)術(shù)論文上看到有“刷榜”的情況,實際上如今的開源數(shù)據(jù)集價值已經(jīng)大大不如當(dāng)年ImageNet了。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

現(xiàn)在學(xué)術(shù)界做的實驗,基本上只能在大數(shù)據(jù)集上進行檢驗,一個事實就是,在大數(shù)據(jù)實驗上有效的算法和Trick,所有的“微創(chuàng)新”,絕大多數(shù)在超大數(shù)據(jù)集上沒有任何價值。現(xiàn)在AI領(lǐng)域每年發(fā)表6000多篇學(xué)術(shù)論文,真正能解決業(yè)務(wù)場景實際問題的論文鳳毛麟角,幾乎可以忽略。學(xué)術(shù)界和產(chǎn)業(yè)界迫切需要進行深度合作,才能更好地推動整個生態(tài)環(huán)境的改變,促進峰點性能的提升。

為了追求速度的極限,就要讓AI算法和AI芯片實現(xiàn)相互優(yōu)化。由于物聯(lián)網(wǎng)的迅速發(fā)展,生成的數(shù)據(jù)量會極速增加,在數(shù)據(jù)量劇增,同時計算資源有限的情況下,加快速度就顯得尤為重要。

另外一個維度是,因為5G的發(fā)展,人們對低時延的期待普遍提升了。除了5G本身的低時延,產(chǎn)生時延另外一個因素是AI算法,要想讓用戶真的更好地體驗低時延,也要從AI算法上下功夫。

依圖視覺計算平臺:AI算法與芯片設(shè)計的“連接器”

正是基于這些原因,科技部依托依圖建設(shè)了視覺計算國家新一代人工智能開放創(chuàng)新平臺,這是一個什么樣的平臺呢?

首先是開放的生態(tài),我們將為視覺計算開發(fā)者提供更加標(biāo)準(zhǔn)和高效的支持與服務(wù),提升智能芯片、智能算法和智能產(chǎn)品的整體產(chǎn)業(yè)能力。我們希望這個平臺能起到“連接器”的作用,使得算法方和芯片方在相互優(yōu)化的同時,又能夠?qū)崿F(xiàn)分層解耦。

在平臺提供的各種服務(wù)中,有一項是算法-芯片優(yōu)化測試。簡單來說,所有的算法設(shè)計者把深度學(xué)習(xí)的模型上傳到平臺,自動轉(zhuǎn)化成為可以在不同的芯片上運行的深度學(xué)習(xí)模型,然后進行深度測試,并提供測試報告。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

這些測試報告有什么用?算法的設(shè)計者拿到測試報告以后,就知道自己的算法在不同的卷積類型、不同的操作類型、不同的I/O大小的情況下的運行時間,從而更好地設(shè)計深度學(xué)習(xí)模型。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

提到模型設(shè)計,其實一個高質(zhì)量的深度學(xué)習(xí)模型設(shè)計方案分為兩部分:一是利用人的智能來設(shè)計基礎(chǔ)的深度學(xué)習(xí)模型的模塊,比如我的團隊提出的1×1卷積,1×1卷積在不同的深度學(xué)習(xí)模型當(dāng)中都得到了廣泛應(yīng)用,特別是在圖像領(lǐng)域,很多時候作為基礎(chǔ)模塊使用。另一個則是把這些基本模塊輸入NAS 搜索空間,再把不同類型模塊的時間消耗考慮進去,就可以做專門針對不同芯片類型的NAS結(jié)構(gòu)搜索。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

最近我的學(xué)生和Facebook做的Octave卷積,指出Feature Map與圖像相似,會有一些 Map 描述高頻的部分,另一些描述低頻的部分,對于低頻的部分可以進一步壓縮, 保存在低分辨率下并在低分辨率下處理。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

于是我們就讓Feature Map變得異構(gòu)化,既有大的也有小的,可以設(shè)計相應(yīng)卷積的操作,輸出的也是異構(gòu)Feature Map,模型會比以前變得更小。因為僅對低頻部分進行壓縮, 信息損失很小,同時這種多尺度結(jié)構(gòu)增加了感受野, 模型分類效能可以顯著提高。同時因為模型資源開銷變小,所以能夠訓(xùn)練更大的模型。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

從芯片開發(fā)者的角度出發(fā),大量的深度學(xué)習(xí)模型需要進行深度測試,這些測試報告可以讓芯片開發(fā)者知道,下一版的芯片以及工具鏈應(yīng)該優(yōu)化的方向和目標(biāo)。

更重要的是,深度學(xué)習(xí)領(lǐng)域每年都會有非常好的模型被提出來,但是又很快被淹沒。一個主要的原因在于,這些模型的理論加速比是很高的,但是在當(dāng)前的AI芯片架構(gòu)下,這些模型的理論加速性能實際上無法實現(xiàn)。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

打個比方,兩年以前我就提出一個模型叫做More is Less,我們發(fā)現(xiàn)現(xiàn)在的深度學(xué)習(xí)卷積完成后,ReLU可能有超過40%的值都是零,這樣ReLU之前的數(shù)值就不是很重要,能不能用極小的計算預(yù)知這些位置,然后把相應(yīng)的卷積剔除掉呢?

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

當(dāng)時我們就提出More is Less,ReLU之后再做Element乘法,理論上來說和原始模型相比是沒有精度損失的,但是在執(zhí)行推理任務(wù)的時候,計算復(fù)雜度會大幅度降低。但是,這種模型在當(dāng)前的AI芯片架構(gòu)上是完全沒有可能實現(xiàn)的。

算法即芯片:深度融合AI算法和芯片設(shè)計

現(xiàn)在,有了依圖視覺計算開放創(chuàng)新平臺,算法設(shè)計者和芯片設(shè)計者可以都來這個平臺上交流溝通,實現(xiàn)互相鏈接,通過合作讓算法模型的理論的加速比變成實際加速比。

依圖的“求索”芯片是今年5月份發(fā)布的,當(dāng)時我們采用“插電發(fā)布”,將200路視頻連接到AI服務(wù)器,現(xiàn)場進行實時人臉檢測和人臉識別?;谇笏餍酒腁I服務(wù)器和邊緣盒子都可以直接快速部署到用戶的業(yè)務(wù)場景。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

依圖在AI芯片和AI算法融合方面已經(jīng)取得了成果?,F(xiàn)在,一個依圖的高密度AI服務(wù)器機柜,能夠支撐10000路視頻的解析,這樣帶來的直接好處就是,用戶的建設(shè)費用會降低,而且在使用時,因為機柜減少了、功耗下降了,運維的成本也會大幅度降低。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

依圖另外一個核心的理念就是要發(fā)展多模態(tài)的AI技術(shù)。依圖過去在美國國家技術(shù)標(biāo)準(zhǔn)局組織的人臉識別的Vendor Test中,曾經(jīng)連續(xù)三年獲得第一。

從去年開始,依圖語音識別也取得了不俗的成就,在中文語音識別方面曾經(jīng)在一個時間段達到SOTA水平。今年,在牛津、MIT等組織的國際聲紋識別競賽上,依圖的聲紋識別也取得了冠軍。

在NLP方面,依圖基于電子病歷進行兒科疾病診斷的相關(guān)成果發(fā)布在了《Nature Medicine》上。今年廈門的多媒體信息識別技術(shù)競賽,依圖在11項比賽當(dāng)中,有10項獲得了A類證書,是所有參賽隊伍當(dāng)中獲得冠軍最多的。

總結(jié)一下對“AI三要素”的觀察,就是:

為了追求極致的精度,其實現(xiàn)在峰值性能因為數(shù)據(jù)和算力的限制,已經(jīng)逐步從學(xué)術(shù)界轉(zhuǎn)移到了工業(yè)界。

為了追求極致的速度,我們需要將AI的算法和AI的芯片相互優(yōu)化,協(xié)同開發(fā)。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

依圖已經(jīng)形成了比較明確的AI核心理念,基于多模態(tài)的峰點算法模型,算法及芯片相互優(yōu)化和融合的推理方案,不斷解鎖不同的AI向善的業(yè)務(wù)場景。

依圖顏水成:AI芯片設(shè)計要深度融合算法,才能實現(xiàn)極致性能

用一句話概括,解決“AI三要素”問題三個關(guān)鍵詞就是:多模態(tài)、軟硬一體化和科技向善。

謝謝大家!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多