电竞比分网-中国电竞赛事及体育赛事平台

分享

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

 long16 2024-03-11 發(fā)布于河南

2 月 1 日,面壁智能與清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共同開源了系列端側(cè)語(yǔ)言大模型 MiniCPM,主體語(yǔ)言模型 MiniCPM-2B 僅有 24 億(2.4B)的非詞嵌入?yún)?shù)量。

在綜合性榜單上與 Mistral-7B 相近,在中文、數(shù)學(xué)、代碼能力表現(xiàn)更優(yōu),整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

具體開源模型包括:

  • 基于 MiniCPM-2B 的指令微調(diào)與人類偏好對(duì)齊的 MiniCPM-2B-SFT/DPO。
  • 基于 MiniCPM-2B 的多模態(tài)模型 MiniCPM-V,能力超越基于 Phi-2 的同參數(shù)級(jí)別多模態(tài)模型 。
  • MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。
  • 基于 MLC-LLM、LLMFarm 開發(fā)的 MiniCPM 手機(jī)端程序,文本及多模態(tài)模型均可在手機(jī)端進(jìn)行推理。

開源地址(內(nèi)含技術(shù)報(bào)告):

MiniCPM GitHub:https://github.com/OpenBMB/MiniCPMOmniLMM

GitHub:https://github.com/OpenBMB/OmniLMM

超越 Mistral-7B、LLaMA-13B

“用最小的規(guī)模,做最強(qiáng)的 AI。”面壁智能 CEO 李大海說道。“以小搏大”的典型是 Mistral-7B,其在業(yè)內(nèi)收獲了很多贊譽(yù),一度被譽(yù)為“開源模型的新王者”,其公司 Mistral AI 也被稱為“歐洲 OpenAI”。

面壁智能的 MiniCPM 一定程度上直接對(duì)標(biāo)了 Mistral-7B。在多項(xiàng)主流測(cè)評(píng)中,MiniCPM-2B 的中英文平均成績(jī)均超過了 Mistral-7B。“Mistral-7B 用 7B 戰(zhàn)勝了 LLaMA-13B 的模型,我們用 2B 干掉 LLaMA 的 13B?!泵姹谥悄?CTO 曾國(guó)洋說道。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

李大海表示,“跟微軟相比我們有兩大優(yōu)勢(shì),2B 性能小鋼炮同等規(guī)模能力領(lǐng)先,主流表現(xiàn)大幅超越,能力更全、更強(qiáng)。與 13、20B 和 40B 規(guī)模的模型也有掰手腕的能力。”

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

在英文能力上,MiniCPM 的得分超越了 Llama2-13B、Falcon-40B:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

在當(dāng)前最接近用戶體感的評(píng)測(cè)集 MTBench 上,MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

小試一下

語(yǔ)言能力方面, MiniCPM 可以一下寫十個(gè)“深夜憂傷”文案:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

也能陪你“cosplay”:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

或許小時(shí)候出去玩,老師還要求寫游記的“頭痛”可以緩解下:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

此外,MiniCPM 不僅知道黃山、泰山準(zhǔn)確海拔,還能計(jì)算差值:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

當(dāng)不同語(yǔ)言混在一起時(shí),MiniCPM 可以把兩種不同的語(yǔ)言識(shí)別出來并自動(dòng)進(jìn)行翻譯:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

編程能力上,MiniCPM 也會(huì)寫代碼,可以讓它自己“開發(fā)”自己:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

視頻請(qǐng)到原文觀看

MiniCPM 也具有多模態(tài)能力,比如拍個(gè)不知名的蘑菇問問它是不是可以吃:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

視頻請(qǐng)到原文觀看

如果在野外時(shí),從帳篷里面看到一條蛇怎么處理:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

視頻請(qǐng)到原文觀看

根據(jù)清華大學(xué)計(jì)算機(jī)系博士胡聲鼎的說法,MiniCPM 大約用了兩周的時(shí)間進(jìn)行訓(xùn)練。隨著硬件的發(fā)展,未來在手機(jī)上跑 7B 甚至幾十 B 的模型也是有可能的。

可以手機(jī)上部署的多模態(tài)大模型

以 MiniCPM-2B 為基礎(chǔ),團(tuán)隊(duì)還構(gòu)建了端側(cè)多模態(tài)大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數(shù) GPU 卡和個(gè)人計(jì)算機(jī)上,甚至可以部署在手機(jī)等端側(cè)設(shè)備上,并支持中英文雙語(yǔ)多模態(tài)交互。

在視覺編碼方面,團(tuán)隊(duì)通過 perceiver 重采樣器將圖像表示壓縮為 64 個(gè) tokens,明顯少于其他基于 MLP 架構(gòu)的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內(nèi)存開銷和更高的速度運(yùn)行。

在多個(gè)基準(zhǔn)(包括 MMMU、MME 和 MMbech 等)中,MiniCPM-V 實(shí)現(xiàn)了更先進(jìn)的性能,超越了基于 Phi-2 構(gòu)建的現(xiàn)有多模態(tài)大模型,甚至達(dá)到了與 9.6B Qwen-VL-Chat 相當(dāng)或更好的性能。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

測(cè)試下 MiniCPM-V 的圖像識(shí)別能力,它成功識(shí)別出了圖片中有一只貓,并且正睡在毛毯上,并告訴我們不要打擾它。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

面壁智能表示,在進(jìn)行 Int4 量化后,MiniCPM 只占 2 GB 空間,具備在端側(cè)手機(jī)進(jìn)行模型部署的條件,消費(fèi)級(jí)顯卡也能流暢玩轉(zhuǎn)大模型。

此外,面壁智能還開源了擅長(zhǎng)視覺和語(yǔ)言建模的大型多模態(tài)模型 OmniLMM,目前發(fā)布了 兩個(gè)特色版本,OmniLMM-12B 和 OmniLMM-3B。

在多模態(tài)視覺交互問答上,OmniLMM 與純文本的 ChatGPT3.5 結(jié)合,表現(xiàn)出了多重能力:實(shí)時(shí)動(dòng)作識(shí)別,理解玩游戲的取勝策略等:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

視頻請(qǐng)到原文觀看

面壁智能也把多模態(tài)能力集成到更多圖片細(xì)節(jié)觀察能力上,比如導(dǎo)盲犬沒有穿標(biāo)識(shí)服裝,也可以通過“手杖”和“挽具”推測(cè)出它是一個(gè)導(dǎo)盲犬:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

對(duì)于錯(cuò)位圖片,OmniLMM 也能夠識(shí)別出來,實(shí)際上是一個(gè)人坐在椅子上,另一個(gè)人走在路上:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

對(duì)于幽默向的圖片,它也可以識(shí)別出來:一只狗穿著藍(lán)色襯衫和短褲在自拍,這不是一只狗的典型行為。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

目前,團(tuán)隊(duì)已經(jīng)針對(duì)不同的操作系統(tǒng)進(jìn)行了不同的適配。對(duì)于 Android、Harmony 系統(tǒng),用戶需要使用開源框架 MLC-LLM 進(jìn)行模型適配,支持文本模型、多模態(tài)模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V;對(duì)于 iOS 系統(tǒng),則需使用開源框架 LLMFarm 進(jìn)行模型適配,僅支持文本模型,適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

在不同手機(jī)型號(hào)上的相關(guān)驗(yàn)證數(shù)據(jù)

李大海表示,端側(cè)模型能夠?yàn)榇竽P秃?Agent 服務(wù),因?yàn)槎烁频膮f(xié)同能夠讓應(yīng)用更好地落地。端側(cè)模型是大模型技術(shù)的積累,讓模型小型化、云上模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果,與大模型技術(shù)是一脈相承的。

“省錢大模型”

“省錢大模型”是面壁智能對(duì) MiniCPM 另一個(gè)稱呼。

在李大??磥?,成本會(huì)在未來大模型競(jìng)爭(zhēng)成為隱性競(jìng)爭(zhēng)優(yōu)勢(shì)?!岸藗?cè)模型的另外一點(diǎn)就是成本,成本是大模型的利潤(rùn)率,2023 年我們做非常多商業(yè)化實(shí)驗(yàn)的時(shí)候發(fā)現(xiàn),客戶在很多應(yīng)用場(chǎng)景下都非常關(guān)注模型的成本。雖然千億模型效果很好,但真要大規(guī)模部署時(shí)還是有很多障礙?!?/span>

當(dāng)前,MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸,但性能幾乎無損,大大降低了模型對(duì)于內(nèi)存和閃存的需求。

以 OPPO 手機(jī)為例,驍龍 855 芯片,成本 600 元, 一共運(yùn)行 5 年報(bào)廢,每秒運(yùn)行 7.5 tokens。以 5 年時(shí)間計(jì)算,170 萬(wàn) tokens 的推理成本僅為 1 元。這是幾乎只有在云端運(yùn)行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

除了在端側(cè)推理之外,MiniCPM 還有持續(xù)的成本改進(jìn),因?yàn)樗銐蛐。恍枰?1 臺(tái)機(jī)器持續(xù)參數(shù)訓(xùn)練、1 張顯卡進(jìn)行高效參數(shù)微調(diào)。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

李大海表示,當(dāng)前手機(jī)推理未曾深入進(jìn)行優(yōu)化,而 GPU 加速已采用各種采樣加速進(jìn)行優(yōu)化,未來手機(jī)推理成本還可以進(jìn)一步降低。

“凡是能在端側(cè)用戶手里解決的算力,就不要到云側(cè)運(yùn)算,否則承擔(dān)的算力成本是不可想象的?!鼻迦A大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)說道。而對(duì)于未來更大算力問題的解決,劉知遠(yuǎn)表示答案一定是云端協(xié)同。端側(cè)大模型要找到它的天花板,并把天花板不斷抬高,這對(duì)商業(yè)化的大模型非常重要。

以小搏大,憑什么

李大海表示,小尺寸是模型技術(shù)的極限競(jìng)技場(chǎng)。那么,面壁智能團(tuán)隊(duì)如何實(shí)現(xiàn)“以小博大”?

全流程高效 Infra

“Infra 是大模型創(chuàng)業(yè)護(hù)城河,決定了公司的技術(shù)上限。”團(tuán)隊(duì) 2021 年開發(fā)的高效訓(xùn)練框架 BMTrain,是業(yè)界 SOTA 的分布式實(shí)現(xiàn),將千億模型訓(xùn)練門檻拉低到 64 卡;高效推理框架 BMInf 高效采樣加速算法,采用稀疏激活方法實(shí)現(xiàn) 3 倍推理加速;高效壓縮框架 BMCook 進(jìn)行 Int4 無損壓縮,可實(shí)現(xiàn) 5 倍以上推理加速,降低 70% 的存儲(chǔ)開銷;高效微調(diào)框架 BMTune 內(nèi)含各種工具包。

算法論是面壁智能在過去三年實(shí)踐中總結(jié)出來的訓(xùn)練方法論,把大模型變成了實(shí)驗(yàn)科學(xué),面壁智能的團(tuán)隊(duì)希望未來將其變成理論科學(xué)。

模型沙盒實(shí)驗(yàn)

面壁智能技術(shù)團(tuán)隊(duì)提出在小模型上進(jìn)行廣泛的實(shí)驗(yàn),通過可遷移的配置,獲得大模型的最優(yōu)訓(xùn)練方法。具體而言,團(tuán)隊(duì)進(jìn)行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個(gè)方面的模型沙盒研究。

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

在超參穩(wěn)定的模型規(guī)模擴(kuò)增上,團(tuán)隊(duì)對(duì)模型的各參數(shù)模塊之間進(jìn)行了連接權(quán)重的調(diào)整、以及對(duì)模型初始化的調(diào)整,部分調(diào)整接近 Cerebras-GPT。

Batchsize 決定了模型的收斂速度和消耗計(jì)算資源的平衡。對(duì)此,團(tuán)隊(duì)在 0.009B,0.036B,0.17B 的模型上分別進(jìn)行了 6 個(gè) batchsize 的訓(xùn)練實(shí)驗(yàn),最終觀察到了最優(yōu) batchsize 隨著 C4 數(shù)據(jù)集上的 loss 的偏移規(guī)律。根據(jù)這個(gè)規(guī)律,團(tuán)隊(duì)預(yù)估了 2B 模型達(dá)到 C4 損失 2.5 左右,4M 是比較合適的 Batchsize。

最優(yōu)學(xué)習(xí)率上,團(tuán)隊(duì)通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學(xué)習(xí)率實(shí)驗(yàn)發(fā)現(xiàn),雖然模型大小擴(kuò)大了 10 倍,但是最優(yōu)學(xué)習(xí)率偏移并不明顯,均在 0.01 左右。在 2.1B 的規(guī)模上進(jìn)行了簡(jiǎn)單驗(yàn)證,發(fā)現(xiàn)在 0.01 的學(xué)習(xí)率確實(shí)能取得最低的 Loss。

此外,團(tuán)隊(duì)還提出了一種新的學(xué)習(xí)率調(diào)度策略:Warmup-Stable-Decay(WSD)調(diào)度器。這種學(xué)習(xí)率調(diào)度器分為三個(gè)階段,warmup 階段(用 W 表示 warmup 階段結(jié)束時(shí)的步數(shù) / 訓(xùn)練量)、穩(wěn)定訓(xùn)練階段(用 S 表示穩(wěn)定訓(xùn)練階段結(jié)束時(shí)的步數(shù) / 訓(xùn)練量)和退火階段(用 D 表示退火階段的訓(xùn)練量)。

由于 WSD 調(diào)度器可以在任何階段退火,取得該階段最優(yōu)的模型,因此團(tuán)隊(duì)也探索了如果持續(xù)訓(xùn)練一個(gè)大小為 N 的模型,最優(yōu)情況下能超過多大參數(shù)量的 Chichilla-optimal 模型。

結(jié)果顯示,如果一個(gè)模型用面壁智能團(tuán)隊(duì)的 WSD 調(diào)度器訓(xùn)練,在消耗等量計(jì)算量時(shí),可以達(dá)到約 5 倍模型參數(shù)量的 Chinchilla-optimal 模型。而持續(xù)訓(xùn)練下去,有可能超越更大的 Chinchilla-optimal 模型。

同時(shí)團(tuán)隊(duì)預(yù)測(cè),9B 模型的 Chinchilla Optimal 的終態(tài) C4 Loss 約為 2.40,7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41,接近于 9B 的 Chinchilla Optimal 模型。

發(fā)布 MiniCPM 之前,團(tuán)隊(duì)做了上千次的模型沙盒實(shí)驗(yàn),探索出的最優(yōu)配置為:WSD LRS,batchsize 為 3.93M,Max Learning Rate 為 0.01。

高質(zhì)量數(shù)據(jù)

除了技術(shù)積累之外,面壁智能在 MiniCPM 的訓(xùn)練中,也追求數(shù)據(jù)的極致高效。

這次,MiniCPM 公開了訓(xùn)練的兩個(gè)數(shù)據(jù)配方。在穩(wěn)定訓(xùn)練階段,團(tuán)隊(duì)使用了 1T 的去重后數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)從開源數(shù)據(jù)中收集而來:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

退火階段,SFT 數(shù)據(jù)配比如下:

清華系 2B 模型殺出,性能吊打 LLaMA-13B,170 萬(wàn) tokens 僅需 1 塊錢!

添加圖片注釋,不超過 140 字(可選)

“用更低的成本完成最小的模型,我們沒有在追趕,我們一直領(lǐng)先?!眲⒅h(yuǎn)說道。

更多技術(shù)細(xì)節(jié)可以查看:

https://shengdinghu./MiniCPM-c805a17c5c8046398914e47f0542095a

結(jié)束語(yǔ)

作為 2024 年的首次對(duì)外發(fā)布,李大海也回顧了面壁智能的成長(zhǎng)歷程:

“面壁智能是最早的大模型研究團(tuán)隊(duì)之一。2018 年,我們脫胎于清華 NLP 實(shí)驗(yàn)室發(fā)布 ERNIE 模型,ERNIE 模型是全球首個(gè)知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型;2020 年 12 月,我們是悟道大模型首發(fā)主力陣容;2022 年 4 月,OpenBMB 開源社區(qū)成立;2022 年 8 月,面壁智能公司化運(yùn)作;2023 年,經(jīng)歷了兩輪融資,其中第一輪是知乎獨(dú)家天使輪融資,也是這一年,面壁智能領(lǐng)跑 Agent 研究發(fā)布了 AgentVerse、ChatDev、XAgent 等框架?!?/span>

如今已經(jīng)擁有超 100 人的科研團(tuán)隊(duì),其中“清華”含量 80%,平均年齡 28 歲,還有來自阿里、字節(jié)、百度等公司的人才。

未來,面壁智能表示將貫徹“大模型 +Agent”雙引擎戰(zhàn)略,致力于更小規(guī)模、更快速度和更低成本的實(shí)現(xiàn)。

原文鏈接:

https://www./news/dQmGdaleo5P0I2NVCxpZ

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多