AI:2023年6月9日北京智源大會演講分享之基礎(chǔ)模型前沿技術(shù)論壇—《工程化打造AI中的CPU》、《構(gòu)建一個AI系統(tǒng):在LLM上應(yīng)用帶有RLHF來推進定制》、《多模態(tài)預(yù)訓(xùn)練的進展回顧與展望》、《擴展大型語言模型:從冪律到稀疏性》
導(dǎo)讀:《工程化打造AI中的CPU》講述了基礎(chǔ)大模型在AI中的重要性體現(xiàn)在提供計算能力、對產(chǎn)業(yè)發(fā)展產(chǎn)生重大影響,以及決定后續(xù)模型的能力和合規(guī)性。 Aquila天鷹語言模型系列旨在打造中英文雙語能力的大模型,并采用循環(huán)迭代的生產(chǎn)流水線。該系列包括基礎(chǔ)模型和針對對話和代碼生成進行微調(diào)訓(xùn)練的模型。評測對大模型的重要性體現(xiàn)在高昂的訓(xùn)練成本和能力復(fù)雜性。FlagEval作為評測體系提供能力-任務(wù)-指標(biāo)三維評測,并輔助模型訓(xùn)練。構(gòu)建迭代基礎(chǔ)大模型的持續(xù)生產(chǎn)線是一個周期性發(fā)展的路線圖,通過不斷創(chuàng)新和迭代滿足產(chǎn)業(yè)需求。
《構(gòu)建一個AI系統(tǒng):在LLM上應(yīng)用帶有RLHF來推進定制》中講述了LM(大型語言模型)在提高生產(chǎn)力和理解特定領(lǐng)域的語言和知識方面具有價值。構(gòu)建實時AI系統(tǒng)是必要的,因為當(dāng)前的AI無法完全取代人類,用戶反饋對于不斷改進至關(guān)重要。使用強化學(xué)習(xí)與人類反饋(RLHF)以及類似PPO的獎勵模型對LLM進行訓(xùn)練至關(guān)重要。LLM的未來發(fā)展涉及將其能力從文本生成擴展到行動自動化,例如自動發(fā)送電子郵件和更新日歷。
《多模態(tài)預(yù)訓(xùn)練的進展回顧與展望》中講述了自監(jiān)督學(xué)習(xí)得到大規(guī)模發(fā)展,大模型不斷涌現(xiàn),但多數(shù)模型仍限于單模態(tài)??蚣苤饕腔赥ransformer,采用自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練,然后微調(diào)到下游任務(wù)。未來需要更多的數(shù)據(jù)集、更高效的模型結(jié)構(gòu)、更好的自監(jiān)督策略,以及更多創(chuàng)新下游應(yīng)用。大模型仍然有很多未解決的問題需要研究。多模態(tài)大模型能實現(xiàn)不同模態(tài)之間的知識共享和協(xié)同,近似類人感知,有助于構(gòu)建通用人工智能。?基于自監(jiān)督學(xué)習(xí)的大模型有望突破瓶頸,成為通用人工智能的重要途徑。通過預(yù)訓(xùn)練模型和微調(diào)任務(wù)實現(xiàn)多模態(tài)融合理解與生成,包括模態(tài)內(nèi)掩碼學(xué)習(xí)、模態(tài)間掩碼學(xué)習(xí)和模態(tài)間匹配學(xué)習(xí)。未來需要構(gòu)建大規(guī)模高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)、設(shè)計高效計算的大模型網(wǎng)絡(luò)結(jié)構(gòu)、適合多模態(tài)關(guān)聯(lián)建模的自監(jiān)督學(xué)習(xí)方法,以及提升預(yù)訓(xùn)練模型的下游應(yīng)用與遷移能力。
《擴展大型語言模型:從冪律到稀疏性》中講述了LLM(Large Language Model)擴展使用MoE技術(shù),通過分布、正則化和擴展來適應(yīng)新數(shù)據(jù)分布。摩爾定律的終結(jié)限制了芯片性能的提升,從而推動了對LLM擴展的需求。摩爾定律已經(jīng)達到物理極限,無法持續(xù)提高芯片性能,LLM需要從簡單的模型規(guī)模擴展轉(zhuǎn)向更復(fù)雜的模型架構(gòu)。T5通過將所有NLP任務(wù)定義為文本到文本轉(zhuǎn)換的方式,達到統(tǒng)一框架且簡單高效。MoE通過引入專家并采用高級技術(shù)如非均勻架構(gòu)、終身學(xué)習(xí)等,成功實現(xiàn)LLM的規(guī)模擴展與性能提高。通過使用專門化分布的專家和無遺忘學(xué)習(xí)技術(shù),可以抑制遺忘問題,使LLM在不同分布上具備良好的性能。
實際上,大模型要始于文字,但最后要高于文字。假如我有足夠的資金,最想做的事是,特別想要10000張A100卡,去復(fù)現(xiàn)一下GPT-4。關(guān)于大模型要不要去做reasoning(數(shù)學(xué)題),或者是說調(diào)用工具去解決?答案是必須的,這是一個基本盤,但是,數(shù)學(xué)推理是多步驟的問題,而不是簡單的QA問題,終極答案還是需要預(yù)訓(xùn)練大模型的。在實際應(yīng)用中,基于RLHF的企業(yè)用戶獲取數(shù)據(jù)質(zhì)量是相對比較好,且性價比很高的。從某種角度來講,自從ChatGPT誕生后,其實是顛覆了以前做的小模型。如果從GPT-4看未來多模態(tài)的方向和路徑,至于是從頭重訓(xùn)練的一個超大多模態(tài)模型,還是只是基于LLMs的基礎(chǔ)上采用MoE策略實現(xiàn)協(xié)同,如果猜測的話,GPT-4內(nèi)部機制大概率上很有可能是后者。
備注:以上內(nèi)容僅為個人解讀與總結(jié),歡迎大家留言建議與指正。
13:30-17:20《基礎(chǔ)模型前沿技術(shù)》

官網(wǎng)地址:2023 北京智源大會
視頻回放地址:https://2023-live./2023/live/?room_id=27171
13:30-13:35—論壇背景與嘉賓介紹劉知遠
清華大學(xué)副教授,智源學(xué)者

13:35-14:05—基礎(chǔ)大模型(語言)——工程化打造AI中的“CPU”林詠華
智源研究院副院長兼總工程師

打造基礎(chǔ)大模型的重要性——為什么是AI中的“CPU"
基礎(chǔ)模型已經(jīng)成為AI大模型時代,單一“產(chǎn)品”投入最大的部分
>>對訓(xùn)練一個語言基礎(chǔ)模型進行成本的粗略估算
>>>>包括:訓(xùn)練數(shù)據(jù)的準(zhǔn)備、訓(xùn)練過程、測試評測三大部分。每一部分包括在該部分所需要的人力成本、計算成本等。
>>>>不包括:可以分攤到多個大模型訓(xùn)練的成本項,例如工具的開發(fā)、新算法的研發(fā)等。
>>一個LLM模型的開發(fā)成本十分高昂。

基礎(chǔ)模型很大程度決定了后續(xù)模型能力、產(chǎn)業(yè)落地等因素
>>能力和知識
>>合規(guī)性和安全性

基礎(chǔ)模型很大程度決定了后續(xù)模型能力、產(chǎn)業(yè)落地等因素
>>版權(quán)和商用許可
>>已經(jīng)發(fā)布的國內(nèi)外通用語言大模型統(tǒng)計(從2023年1月至5月底)
>>>>國外發(fā)布的開源語言大模型有39個,其中可商用、非copyleft協(xié)議的大模型有16個
>>>>國內(nèi)發(fā)布的語言大模型有28個,其中開源的語言大模型有11個,其中開源可商用的語言大模型僅有1個(BELLE ——基于BLOOMz-7B進行指令微調(diào)的對話模型)


Aquila天鷹語言模型系列——目標(biāo)
>>為大模型產(chǎn)業(yè)打造具備中英文雙語能力的
>>天鷹大模型需要符合語言模型的整體能力框架要求。
>>打造端到端、循環(huán)迭代的大模型生產(chǎn)流水線
>>語言大模型的整體能力框架定義

Aquila天鷹語言模型系列總體介紹
>>基礎(chǔ)模型信息
Aquila-33B:330億參數(shù)中英雙語基礎(chǔ)模型
Aquila-7B:70億參數(shù)中英雙語基礎(chǔ)模型
>>對話模型信息——基于Aquila基礎(chǔ)模型進行指令微調(diào)訓(xùn)練及強化學(xué)習(xí)
>>代碼模型信息——基于Aquila基礎(chǔ)模型進行持續(xù)訓(xùn)練.?

Aquila天鷹語言模型預(yù)訓(xùn)練數(shù)據(jù)介紹

Aquila天鷹語言模型基礎(chǔ)模型
>>Aquila語言大模型在技術(shù)上繼承了GPT-3、LLaMA等的架構(gòu)設(shè)計優(yōu)點
>>重新設(shè)計實現(xiàn)了中英雙語的tokenizer
>>并行訓(xùn)練方法:
>>底層算子:Aquila替換了一批更高效的底層算子實現(xiàn)(Flash attention) ,并且集成到BMTrain的訓(xùn)練框架中。

Aquila天鷹語言模型SFT數(shù)據(jù)打造
數(shù)據(jù)采集
數(shù)據(jù)分布分析和調(diào)整
SFT測試驅(qū)動數(shù)據(jù)迭代
重要指令添加

Aquila天鷹語言模型SFT數(shù)據(jù)打造
>>SFT數(shù)據(jù)采集
>>>>人工寫prompt+回復(fù)
>>>>>>內(nèi)部數(shù)據(jù)標(biāo)注人員+外部公益者
>>從公開高質(zhì)量數(shù)據(jù)集進行指令生成

指令微調(diào)數(shù)據(jù)集
我們通過構(gòu)造數(shù)據(jù)類別的分類模型,分析指令數(shù)據(jù)集的分布情況

SFT測試驅(qū)動數(shù)據(jù)迭代

重要指令添加

悟道·天鷹AquilaChat對話模型(7B+33B)
模型能力與指令微調(diào)數(shù)據(jù)的循環(huán)迭代
可擴展的特殊指令規(guī)范
強大的指令分解能力

悟道·天鷹 AquilaCode-7B“文本-代碼”生成模型
>>基于Aquila-7B的強大基礎(chǔ)能力,以小數(shù)據(jù)集、小參數(shù)量,實現(xiàn)高性能
>>同時支持不同芯片架構(gòu)的模型訓(xùn)練

為什么評測十分重要
每天10萬以上的訓(xùn)練成本。。。
>>大船難以掉頭
>>大模型的能力復(fù)雜性:

Aquila天鷹大模型的評測系統(tǒng)

FlagEval (天秤)大語言模型評測體系
“能力-任務(wù)-指標(biāo)”三維評測體系

FlagEval能力框架詳解

FlagEval大模型評測輔助模型訓(xùn)練
>>自動化評測機制,實現(xiàn)邊訓(xùn)練邊評測:
>>自適應(yīng)評測機制,實現(xiàn)評測結(jié)果指導(dǎo)的模型訓(xùn)練:
>>各階段效率優(yōu)化:

基于九鼎平臺的訓(xùn)練系統(tǒng)

只是起點——構(gòu)建迭代基礎(chǔ)大模型的持續(xù)“生產(chǎn)線”
>>參考tick-tock模式,構(gòu)建語言大模型的周期性發(fā)展的路線圖
>>構(gòu)建可預(yù)見+不可預(yù)見的創(chuàng)新迭代Roadmap
源源不斷的預(yù)訓(xùn)練海量數(shù)據(jù)
各種大模型新技術(shù)
產(chǎn)業(yè)需求
新版本大模型

悟道3.0∶深耕基礎(chǔ)模型——大模型樹
沒有基礎(chǔ)模型的深耕,帶不來枝繁葉茂

持續(xù)創(chuàng)新、持續(xù)迭代、持續(xù)產(chǎn)出
開源倉庫:https://github.com/FlagAl-Open/FlagAl

14:05-14:50—《Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization構(gòu)建一個人工智能系統(tǒng):在LLM上應(yīng)用帶有人類反饋的強化學(xué)習(xí)(RLHF)來推進定制》
劉胤燴│ Birch.ai核心創(chuàng)始人及CTO

?Agenda
The Value of LLMs
Building a Real-Time Al System
Reinforcement Learning with Human Feedback (RLHF)
The Future of LLMs

Why Do We Need LLMs
Boost Productivity
>>Consumer Facing Products.
>>Enterprise Facing Products
>>>>Understand domain language - ex: healthcare lingo-
>>>>Understand industry's knowledge and company policies

Building a Real-Time Al System
Necessities of a Real-time Al System.?
Today's Al can't completely replace human.
>>Start with augmentation than complete automation
>>Humans-in-the-loop for critical decisions and final sign-off
>>Real-time performance metrics for generative models - "# Human edits"
>>Collect feedbacks from professionals

Why do we need a real-time Al system.?
>> Today's Al can't completely replace human.?
>> User feedback is critical, but must be curated.?
>> Continuous improvement is the path to automation
>>>>Train Reward Models (RM)
>>>>Apply Reinforcement Learning with Human Feedback (RLHF)

?客服實時系統(tǒng)案例應(yīng)用


Reinforcement Learning with Human Feedback (RLHF)
InstructGPT,搭建實時系統(tǒng)可以獲得高質(zhì)量的數(shù)據(jù)集

Reward Model

PPO
來自2017年OpenAI的論文


?The Future of LLMs
Extend the workflow from text generation to action automation
>>Text Generations:
>>>>Meeting notes
>>Action Automations:
>>>>Send emails
>>>>Update calendars
>>>>Create, assign, and execute tasks

14:50-15:35—多模態(tài)預(yù)訓(xùn)練的進展回顧與展望劉靜
中科院自動化所研究員

多模態(tài)預(yù)訓(xùn)練的研究背景—為什么關(guān)注?
多模態(tài)預(yù)訓(xùn)練的研究進展—當(dāng)前怎么做?
多模態(tài)預(yù)訓(xùn)練的幾點思考—以后怎么做?

多模態(tài)預(yù)訓(xùn)練的研究背景—為什么關(guān)注?
預(yù)訓(xùn)練大模型有望突破瓶頸
>>開啟了基于自監(jiān)督學(xué)習(xí)的“大數(shù)據(jù)+大模型”新范式,從大規(guī)模的無標(biāo)注數(shù)據(jù)中挖掘隱含的監(jiān)督信息進行通用知識學(xué)習(xí),成為邁向通用人工智能的重要途徑。
>>ChatGPT進一步聯(lián)合人類反饋的強化學(xué)習(xí),實現(xiàn)可與人類意圖對齊的基礎(chǔ)模型。
1、從有監(jiān)督到自監(jiān)督
2、從專用小模型到通用大模型:多專多能
3、從數(shù)據(jù)驅(qū)動到人機交互學(xué)習(xí):大模型+RL

?近年來各種大模型持續(xù)涌現(xiàn)
數(shù)據(jù)量/模型參數(shù)量不斷增長,并在語言、語音、視覺等通用領(lǐng)域,以及無人車、遙感、生物醫(yī)藥等各領(lǐng)域取得優(yōu)異性能。
從“大煉模型”轉(zhuǎn)為“煉大模型”
大模型的應(yīng)用方

ChatGPT是什么?
>>ChatGPT基于大規(guī)模語言模型GPT3.5,通過人類反饋學(xué)習(xí)微調(diào)而來的對話生成大模
,通過人類反饋學(xué)習(xí)微調(diào)而來的對話生成大模,而是以自然語言為交互的通用語言處理平臺。
>>>>超出預(yù)期的交互體驗
>>>>通用的意圖理解能力
>>>>強大的連續(xù)對話能力
>>>>智能的交互修正能力
>>>>較強的邏輯推理能力

ChatGPT以產(chǎn)品為導(dǎo)向,眾多技術(shù)與成果的集大成者
大模型技術(shù)與人類反饋強化學(xué)習(xí)融合,實現(xiàn)知識邏輯涌現(xiàn)和人類價值觀模擬,探索出了發(fā)展通用人工智能新路徑,成為真正改變AI領(lǐng)域重大突破

大模型從單模態(tài)邁向多模態(tài)成為必然
面向圖文音數(shù)據(jù)的多模態(tài)預(yù)訓(xùn)練模型是利
用全網(wǎng)多模態(tài)大數(shù)據(jù)來實現(xiàn)類人多模念感認知的重要途徑,有望推動語音、語言、視覺等多領(lǐng)域協(xié)同發(fā)展
>>多模態(tài)數(shù)據(jù)無處不在:互聯(lián)網(wǎng)90%以上是圖像與音視頻數(shù)據(jù),文本不到10%
>>多模態(tài)協(xié)同更符合人類感知與表達方式:讓機器實現(xiàn)類人“看懂、聽懂、能說、會讀”

多模態(tài)預(yù)訓(xùn)練的研究進展—當(dāng)前怎么做?

多模態(tài)預(yù)訓(xùn)練需要解決什么問題?
模型應(yīng)具有強大的自監(jiān)督學(xué)習(xí)與通用知識遷移能力,使不同領(lǐng)域任務(wù)在統(tǒng)一框架下實現(xiàn)基于低標(biāo)注代價的性能提升
重點關(guān)注多模態(tài)融合表征與跨模態(tài)語義關(guān)聯(lián),提升多模態(tài)融合理解與跨模態(tài)轉(zhuǎn)換生成性能

預(yù)訓(xùn)練模型的核心思想
預(yù)訓(xùn)練:采用Transformer作為基本模型,通過設(shè)計基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練任務(wù),從大量無標(biāo)注數(shù)據(jù)中學(xué)習(xí)與具體任務(wù)無關(guān)的通用知識。
>>>>訓(xùn)練數(shù)據(jù):大規(guī)模無標(biāo)注、結(jié)構(gòu)化知識
>>>>模型框架:Transformer
>>>>學(xué)習(xí)機制:自監(jiān)督學(xué)習(xí)
模型微調(diào)Fine-Tune:支持多模態(tài)理解與生成的各種下游任務(wù)
>>>>下游任務(wù):理解與生成

多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集
無標(biāo)注成本的網(wǎng)絡(luò)數(shù)據(jù)
>>圖像文本數(shù)據(jù):圖像及其相關(guān)文本(標(biāo)簽、描述、評論等)
>>視頻文本數(shù)據(jù):視頻及其相關(guān)文本(標(biāo)簽、描述、字幕、語音等)
>>音頻文本數(shù)據(jù)

萬級別強關(guān)聯(lián)人工標(biāo)注→百萬/億級別弱關(guān)聯(lián)無標(biāo)注

?多模態(tài)預(yù)訓(xùn)練—基礎(chǔ)模型Transformer

基于Transformer Encoder—理解任務(wù)
單流:視覺和文本模態(tài)一起輸入編碼器,代表性工作有VL-BERT,UNITER
雙流:視覺和文本模態(tài)先單獨編碼,然后跨模態(tài)交互,代表性工作有ViLBERT,CLIP

基于Transformer Decoder—生成任務(wù)
聯(lián)合VQ-VAE圖像自編碼器與GPT語言模型,將文本和圖像分別序列化作為GPT的輸入

基于Encoder + Decoder—理解+生成
通過decoder更好的學(xué)習(xí)不同模態(tài)之間關(guān)聯(lián)關(guān)系,提升理解判別能力

多模態(tài)預(yù)訓(xùn)練模型-自監(jiān)督學(xué)習(xí)
>>模態(tài)內(nèi)掩碼學(xué)習(xí)
>>>>文本、語音、視覺自身token級別mask
>>模態(tài)間掩碼學(xué)習(xí)
>>>>不同模態(tài)信息的相互預(yù)測
>>>>mask視覺,輸出對應(yīng)文本..
>>模態(tài)間匹配學(xué)習(xí)
>>>>匹配與否的分類問題
>>>>對比學(xué)習(xí)

多模態(tài)下游任務(wù)—模型微調(diào)
>>預(yù)訓(xùn)練模型的最終目標(biāo)是提高下游任務(wù)的性能
>>如何將預(yù)訓(xùn)練模型強大的表示能力遷移到特定數(shù)據(jù)下的特定任務(wù)中,顯得尤為重要
>>模型微調(diào)
√ Pretraining+ Finetune
√Pretraining+Prompt-Tuning
√Pretraining + Adaptor-Tuning
√Pretraining +LoRA
>>多模態(tài)下游任務(wù)
√生成:文本/語音/視覺內(nèi)容生成
√理解:跨模態(tài)檢索/問答/推理

?更大更強的多模態(tài)預(yù)訓(xùn)練模型

更大更強的多模態(tài)預(yù)訓(xùn)練模型
>>強大的語言模型:預(yù)訓(xùn)練時盡可能凍結(jié)語言模型,保留原模型知識
>>更大的視覺模型:利用大規(guī)模的圖文弱關(guān)聯(lián)數(shù)據(jù)以及圖像數(shù)據(jù)
>>更大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù):大量圖像-文本、視頻-文本以及網(wǎng)頁數(shù)據(jù)
>>更多模態(tài)形式的數(shù)據(jù):圖像、視頻、音頻、文本、紅外、雷達。。。

圖文音三模態(tài)大模型-紫東太初
國際首個千萬級規(guī)模圖文音多模態(tài)數(shù)據(jù)集在圖文/文音/視頻等20+下游任務(wù)數(shù)據(jù)集上取得SOTA


“紫東太初”大模型:多模態(tài)感知與交互
以語言大模型為核心的多模態(tài)融合感知與多任務(wù)統(tǒng)

多模態(tài)對話實例

多模態(tài)關(guān)聯(lián)分析實例

多模態(tài)描述實例

紫東太初大模型:多行業(yè)應(yīng)用創(chuàng)新

多模態(tài)預(yù)訓(xùn)練的幾點思考—以后怎么做?
幾點思考
“大數(shù)據(jù)+大模型”簡潔粗暴但有效的路子還未走到盡頭,但終將走到盡頭
●大規(guī)模、高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)
>>構(gòu)建大規(guī)模不同模態(tài)間的對齊數(shù)據(jù)(弱監(jiān)督、半監(jiān)督)>引入知識來篩選大數(shù)據(jù)
●高效計算的大模型網(wǎng)絡(luò)結(jié)構(gòu)
>>改進或替代Transformer的高效模型
>>超大規(guī)模模型分布式并行訓(xùn)練
>>與下游任務(wù)兼容的更優(yōu)模型
>>顯示知識嵌入與隱式知識學(xué)習(xí)

●適合多模態(tài)關(guān)聯(lián)建模的自監(jiān)督學(xué)習(xí)
>>單模態(tài)、部分模態(tài)、全模態(tài)混合訓(xùn)練
>>如何實現(xiàn)多模態(tài)信息之間更細粒度的對齊建模
>>聯(lián)合無監(jiān)督強化學(xué)習(xí),引入環(huán)境反饋

●預(yù)訓(xùn)練模型的下游應(yīng)用與遷移能力
>>模型壓縮與推理加速為特定場景應(yīng)用提供可能
>>多模態(tài)應(yīng)用更為豐富,如何拓展更多創(chuàng)新下游應(yīng)用


后ChatGPT時代人工智能科研方向
>>研究大模型∶
大模型的原理、能力來源、可解釋可控性研究;探索大模型的能力邊界;研究大模型的能力外延和拓展
>>利用大模型
賦能各個研究任務(wù)和研究方向,例如賦能科學(xué)研究AI4Science,賦能各行各業(yè)AI+
>>治理大模型:
讓大模型的發(fā)展安全可信可控,確保隱私安全,符合人類根本利益,防止其做出危害人類、破壞社會發(fā)展的事情

后ChatGPT時代的多模態(tài)大模型
>>未來AGI必然是與人類智能相仿,高效協(xié)同的多模態(tài)智能
>>從多模態(tài)信息中學(xué)習(xí)知識,實現(xiàn)不同模態(tài)之間的知識遷移、相互補全、相互驗證。
>>充分利用現(xiàn)有語言大模型的認知推理能力,構(gòu)建通用、安全、可信的多模態(tài)大模型
>>上下游任務(wù)與所有可能的技術(shù)路線之間,將進行各種形式的排列組合拼插,多模態(tài)應(yīng)用創(chuàng)新層出不窮
>>>>跨模態(tài)的知識挖掘
>>>>多模態(tài)信息展示生成(如產(chǎn)品、年報、課程、演講)
>>>>多模態(tài)融合理解與推理(圖文試題、讀書看報)
>>>>虛擬現(xiàn)實/混合現(xiàn)實中的自動內(nèi)容創(chuàng)建
>>>>領(lǐng)域虛擬角色(如虛擬導(dǎo)購、虛擬教師)
>>>>多模態(tài)感知決策一體化的新一代機器人技術(shù)

15:35-16:20—《Scaling Large Language Models: From Power Law to Sparsity擴展大型語言模型:從冪律到稀疏性》周彥祺
T5作者之一,谷歌研究科學(xué)家
LLM Scaling: From Power Law to Sparsity

Agenda議程
01 Moore's Law and Power Law摩爾定律和冪律
02 T5: Unified Text-to-Text Transformer??T5:統(tǒng)一的文本到文本轉(zhuǎn)換器
03 Scaling LLM with MoE??使用MoE擴展LLM
04 Advanced MoE techniques??先進的MoE技術(shù)
05 Q&A

01 Moore's Law and Power Law?摩爾定律和冪律

The End of Moore's Law摩爾定律的終結(jié)
Gordon Moore postulated that the number oftransistors that can be packed into a givenunit of space will double every two years.
Nowadays we are reaching the physicallimits of Moore's Law because the hightemperature of transistors makes it impossible to create smaller circuits.
Of course, chips performance are not justbounded by transistors, but also bounded bymemory bandwidth (memory wall), andother reasons...
戈登·摩爾提出,在給定空間中可以裝入的晶體管數(shù)量每兩年翻一番。
現(xiàn)在我們正接近摩爾定律的物理極限,因為晶體管的高溫使得創(chuàng)建更小的電路成為不可能。
當(dāng)然,芯片的性能不僅受到晶體管的限制,還受到內(nèi)存帶寬(內(nèi)存墻)等其他原因的限制。

Power Law Rules Deep Learning冪律規(guī)則深度學(xué)習(xí)

Exploring the Limits of TransferLearning with a Unified Text-to-Text Transformer通過統(tǒng)一的文本到文本轉(zhuǎn)換器探索遷移學(xué)習(xí)的極限

02 T5:Unified Text-to-Text Transformer??T5:統(tǒng)一的文本到文本Transformer??
Text-to-text Simply Works文本到文本的簡單運作
將每個問題都定義為以文本作為輸入并生成文本作為輸出。
Formulate every problem as takingtext as input and producing text as output.

C4 DatasetC4數(shù)據(jù)集
從公開可用的Common Crawl獲取源數(shù)據(jù),這是一個網(wǎng)絡(luò)爬取的數(shù)據(jù)集。
Common Crawl包含很多嘈雜的“網(wǎng)頁提取文本”
數(shù)據(jù)集在外部是完全可用和可再現(xiàn)的
Source data from Common Crawl, a publicly-available web scrape.
>> Common Crawl includes very noisy "web extracted text"
>> Dataset is completely useable and reproducible externally
應(yīng)用大量的過濾:
刪除不以. , ! " ... 結(jié)尾的行
刪除短行
刪除帶有不良短語(例如冒犯性詞語,"服務(wù)條款","lorem ipsum"等)的行
在文檔之間進行句子級去重復(fù)
等等
Apply lots of filtering:
>> Remove lines that don't end in . , ! " ...
>> Remove short lines
>> Remove lines with bad phrases (e.g. offensive terms, "terms of service"""lorem ipsum"...)
>> Sentence-level deduplication across documents
>> etc.
生成約750 GB的干凈英文文本+其他語言中的大量文本。
yielding→~750 GB of clean English text + large amounts in other languages.

?Experiment實驗
we chose parameters and strategies to simplify the pipeline as much as possible.
我們選擇參數(shù)和策略,以盡可能簡化流程。

Objective目標(biāo)

Model Architectures模型架構(gòu)
Dark grey lines
correspond to fully-visible masking and light grey lines correspond to causalmasking.
深灰色線表示完全可見掩碼,淺灰色線表示因果掩碼。

?Comparing High Level Approaches for UnsupervisedObjectives對無監(jiān)督目標(biāo)的高級方法進行比較

What should you do with 4x compute?有了4倍的計算能力應(yīng)該做什么?
Training for longer, training a larger model, and ensembling all provide orthogonal boosts in performance
更長時間的訓(xùn)練、訓(xùn)練更大的模型和集成都可以提供性能上的正交增強

Scalling Up?擴展

Hitting and End of Dense Model Scaling密集模型擴展的極限

03 Scaling LLM with MoE使用MoE擴展LLM

Hitting an End of Dense Model Scaling達到密集模型擴展的極限
“GLaM: Efficient Scaling of Language Models with Mixture-of-Experts", Nan Du and others, ICML 2022.
“GLaM:用混合專家的方式有效擴展語言模型”,Nan Du等人,ICML 2022。

Efficient Scaling of Language Models with MoE使用MoE進行高效擴展語言模型
>>Decoder only
>>ln-context few-shot learning
>>Sparsely gated network with GShard Top2 routing
>>Scale up to 1.2T total parameters with 97B activated
僅解碼器
ln-context少樣本學(xué)習(xí)
使用GShard Top2路由的稀疏門控網(wǎng)絡(luò)
總參數(shù)量擴展到1.2T,激活參數(shù)量為970B

GLaM Model Architecture?GLaM模型架構(gòu)
>>Sparsely activated FFNs
>>GShard top2 gating function
>>lnterleaving dense layers with sparselayers.
稀疏激活的前饋神經(jīng)網(wǎng)絡(luò)
GShard Top2門控函數(shù)
將密集層與稀疏層交替排列。

Few-shot Results Compared to GPT3與GPT3相比的少樣本結(jié)果
Average few-shot performance on NLU and NLG tasks when scaling FLOPs (activated parameters)
在縮放FLOPs(激活參數(shù))時的NLU和NLG任務(wù)的平均少樣本性能

Learning Efficiency Compared to GPT3與GPT3相比的學(xué)習(xí)效率

Token-Based MoE hasLimitations...基于標(biāo)記的MoE有局限性...

MoE with Expert Choice Routing具有專家選擇Routing的MoE
>> Each expert selects top-k tokens independently.
>> Perfect load balancing
>> Tokens can be received by a variable number of experts.
每個專家獨立選擇前k個標(biāo)記。
完美的負載均衡
標(biāo)記可以由可變數(shù)量的專家接收。

?Expert Choice Gather專家選擇聚合

Comparison with GLaM 與GLaM的比較
訓(xùn)練效率
達到良好困惑度需要多少步驟?
步驟時間
>> Training efficiency
>>>> How many steps to get good perplexity?
>>>> Step time
與GLaM Top-2門控比較
EC-CF2的收斂速度比2倍快
每步時間減少20%
>> Comparing to GLaM Top-2gating
>>>> EC-CF2 converges more than 2x faster
>>>> Per-step time is 20%smaller

Comparison with GLaM? 與GLaM的比較
基準(zhǔn):
>>Baselines:
>>>>Switch Transformer Top-1
>>>>GShard Top-2
>>lmproves average scores by 1-2%
>>8B/64E outperforms T5 11B dense
>>100M/32E has better fine-tuningperformance than 100M/64E or10OM/128E.
平均分數(shù)提高了1-2%
8B/64E的性能優(yōu)于T5 11B的密集模型
100M/32E的微調(diào)性能優(yōu)于100M/64E或10OM/128E。

04 Advanced MoE techniques先進的MoE技術(shù)

MoE architectures aresuboptimal...MoE架構(gòu)是次優(yōu)的...

Brainformers: Trading Simplicity for Efficiency? ?Brainformers:以效率換取簡單性
>>Existing MoE architectures scale poorly in terms of step time.
>>Propose a non-uniform architecture, rooting from low-rank, multi-expert primitives.
>>Demonstrate 2x faster training convergence and 5x faster step time than GLaM.
現(xiàn)有的MoE架構(gòu)在步驟時間上擴展性差。
提出一種非均勻架構(gòu),以低秩多專家原語為基礎(chǔ)。
展示比GLaM更快的訓(xùn)練收斂速度和更快的步驟時間,速度提升5倍。

How we derive the model search space?我們?nèi)绾蔚贸瞿P退阉骺臻g?
Transformer是從低秩和多專家派生出來的特殊情況!
Transformer is a special case derived from low-rank and multi-expert!

Brainformer Search?Brainformer搜索
Block-wise architectural searchspace
Compute-efficient search objective
基于塊的架構(gòu)搜索空間
計算高效的搜索目標(biāo)

?
Training Convergence Comparing to GLaM與GLaM相比的訓(xùn)練收斂速度


Fine-tuning and few-shot微調(diào)和少樣本學(xué)習(xí)

LLM training isexpensive...LLM的訓(xùn)練成本高昂...

Motivation動機
>> Use case 1: temporal datasets
>>>> Keep datasets updated with language trends
? ? Collect new samples every couple of months
? ? Google search, forum, dialog, wikipedia, github, etc.
>>>> Train on large datasets is timelresource consuming
>>>> Train on new samples will be cheap
用例1:時間相關(guān)數(shù)據(jù)集
跟蹤語言趨勢,保持數(shù)據(jù)集更新
? ? 每隔幾個月收集新樣本
? ? 谷歌搜索、論壇、對話、維基百科、GitHub等等。
在大型數(shù)據(jù)集上訓(xùn)練耗時資源
在新樣本上訓(xùn)練將更加廉價
>> Use case 2: general pretrainining dataset->datasets for dialogue
>>>> Need finetuning on a new mixture of dataset for a target domain, like chatbot.
>>>> There will be forgetting.
用例2:通用預(yù)訓(xùn)練數(shù)據(jù)集->用于對話的數(shù)據(jù)集
需要在針對目標(biāo)領(lǐng)域的新數(shù)據(jù)混合中進行微調(diào),比如聊天機器人。
會出現(xiàn)遺忘現(xiàn)象。

Forgetting遺忘
>> Distribution of original dataset: A
>> Distribution of new samples: B
>> Distribution shift A →B
>> Performance on both A & B matter!
>> >> Building general models is the trend.
原始數(shù)據(jù)集的分布:A
新樣本的分布:B
分布從A到B發(fā)生變化
A和B上的性能都很重要!
構(gòu)建通用模型是趨勢。
>> "Forgetting issue": if we only train on B, performance on A willdrop
>> >> Assumption: new data comes in a sequence, we may not have "access" to old
data.
"遺忘問題":如果我們只在B上進行訓(xùn)練,A上的性能會下降
假設(shè):新數(shù)據(jù)按序列進入,我們可能無法“訪問”舊數(shù)據(jù)。

Lifelong Language Pretraining with Distribution-specialized Experts使用專門化分布的專家進行終身語言預(yù)訓(xùn)練
>> Distribution based MoE
>>>> Progressively add more experts for new data distribution
>>>> Add regularization to mitigate forgetting.?
基于分布的MoE
逐漸增加更多專家以適應(yīng)新數(shù)據(jù)分布
添加正則化以減輕遺忘。

Lifelong Pretraining on MoE:Distribution 、Regularization、Expansion??MoE上的終身預(yù)訓(xùn)練:分布、正則化、擴展
>>Distribution A →B=c
>>>>Simulation on Tarzan:"A”= wiki/web,""B” = non-English,"C” = dialog
分布A → B=c
在Tarzan上進行模擬:“A”= 維基/網(wǎng)絡(luò),“B”= 非英語,“C”= 對話
>>“Regularization”
>>>>We don't want models to overfit B
>>>>We don't want model weights to be updated too far from A
>>>>Fit B, while regularize model from A
“正則化”
我們不希望模型過度擬合B
我們不希望模型權(quán)重過于偏離A
在適應(yīng)B的同時對模型進行正則化
>>“Expansion”
>>>>Allow models to expand (expert) layers when fitting new distributions
“擴展”
允許模型在適應(yīng)新分布時擴展(專家)層

Lifelong Pretraining on MoE:Expansion+Regularization??MoE上的終身預(yù)訓(xùn)練:擴展+正則化
>>Expand experts for new distributions
>>Partially freeze old experts/gatings
>>Train with"Learning without Forgetting”(LwF) loss
為新分布擴展專家
部分凍結(jié)舊的專家/門控
使用“無遺忘學(xué)習(xí)”(LwF)損失進行訓(xùn)練

?Forgetting ls Suppressed遺忘被抑制

Final Results最終結(jié)果

Final Thoughts & QA? ?最后的思考和問答
>>Sustainably scaling dense LLM is hitting an end.
>>MoE becomes critical to further advancing LLM scaling.
持續(xù)擴展密集LLM已經(jīng)達到了極限。
MoE變得對進一步推進LLM擴展至關(guān)重要。
>>We need better MoE architecture, as well as training strategy.
>>>>Non-uniform architecture
>>>>Lifelong learning?
我們需要更好的MoE架構(gòu),以及訓(xùn)練策略。
非均勻架構(gòu)
終身學(xué)習(xí)

16:20-17:20—圓桌討論
更新中……