清華系 2B 模型殺出，性能吊打 LLaMA-13B，170 萬(wàn) tokens 僅需 1 塊錢！

long16 2024-03-11 發(fā)布于河南

展開全文

2 月 1 日，面壁智能與清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共同開源了系列端側(cè)語(yǔ)言大模型 MiniCPM，主體語(yǔ)言模型 MiniCPM-2B 僅有 24 億（2.4B）的非詞嵌入?yún)?shù)量。

在綜合性榜單上與 Mistral-7B 相近，在中文、數(shù)學(xué)、代碼能力表現(xiàn)更優(yōu)，整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

具體開源模型包括：

基于 MiniCPM-2B 的指令微調(diào)與人類偏好對(duì)齊的 MiniCPM-2B-SFT/DPO。
基于 MiniCPM-2B 的多模態(tài)模型 MiniCPM-V，能力超越基于 Phi-2 的同參數(shù)級(jí)別多模態(tài)模型。
MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。
基于 MLC-LLM、LLMFarm 開發(fā)的 MiniCPM 手機(jī)端程序，文本及多模態(tài)模型均可在手機(jī)端進(jìn)行推理。

開源地址（內(nèi)含技術(shù)報(bào)告）：

MiniCPM GitHub：https://github.com/OpenBMB/MiniCPMOmniLMM

GitHub：https://github.com/OpenBMB/OmniLMM

超越 Mistral-7B、LLaMA-13B

“用最小的規(guī)模，做最強(qiáng)的 AI。”面壁智能 CEO 李大海說道。“以小搏大”的典型是 Mistral-7B，其在業(yè)內(nèi)收獲了很多贊譽(yù)，一度被譽(yù)為“開源模型的新王者”，其公司 Mistral AI 也被稱為“歐洲 OpenAI”。

面壁智能的 MiniCPM 一定程度上直接對(duì)標(biāo)了 Mistral-7B。在多項(xiàng)主流測(cè)評(píng)中，MiniCPM-2B 的中英文平均成績(jī)均超過了 Mistral-7B。“Mistral-7B 用 7B 戰(zhàn)勝了 LLaMA-13B 的模型，我們用 2B 干掉 LLaMA 的 13B?！泵姹谥悄?CTO 曾國(guó)洋說道。

清華系 2B 模型殺出，性能吊打 LLaMA-13B，170 萬(wàn) tokens 僅需 1 塊錢！

李大海表示，“跟微軟相比我們有兩大優(yōu)勢(shì)，2B 性能小鋼炮同等規(guī)模能力領(lǐng)先，主流表現(xiàn)大幅超越，能力更全、更強(qiáng)。與 13、20B 和 40B 規(guī)模的模型也有掰手腕的能力。”

添加圖片注釋，不超過 140 字（可選）

在英文能力上，MiniCPM 的得分超越了 Llama2-13B、Falcon-40B：

添加圖片注釋，不超過 140 字（可選）

在當(dāng)前最接近用戶體感的評(píng)測(cè)集 MTBench 上，MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等眾多代表性開源大模型。

添加圖片注釋，不超過 140 字（可選）

小試一下

語(yǔ)言能力方面， MiniCPM 可以一下寫十個(gè)“深夜憂傷”文案：

添加圖片注釋，不超過 140 字（可選）

也能陪你“cosplay”：

添加圖片注釋，不超過 140 字（可選）

或許小時(shí)候出去玩，老師還要求寫游記的“頭痛”可以緩解下：

添加圖片注釋，不超過 140 字（可選）

此外，MiniCPM 不僅知道黃山、泰山準(zhǔn)確海拔，還能計(jì)算差值：

添加圖片注釋，不超過 140 字（可選）

當(dāng)不同語(yǔ)言混在一起時(shí)，MiniCPM 可以把兩種不同的語(yǔ)言識(shí)別出來并自動(dòng)進(jìn)行翻譯：

添加圖片注釋，不超過 140 字（可選）

編程能力上，MiniCPM 也會(huì)寫代碼，可以讓它自己“開發(fā)”自己：

視頻請(qǐng)到原文觀看

MiniCPM 也具有多模態(tài)能力，比如拍個(gè)不知名的蘑菇問問它是不是可以吃：

視頻請(qǐng)到原文觀看

如果在野外時(shí)，從帳篷里面看到一條蛇怎么處理：

視頻請(qǐng)到原文觀看

根據(jù)清華大學(xué)計(jì)算機(jī)系博士胡聲鼎的說法，MiniCPM 大約用了兩周的時(shí)間進(jìn)行訓(xùn)練。隨著硬件的發(fā)展，未來在手機(jī)上跑 7B 甚至幾十 B 的模型也是有可能的。

可以手機(jī)上部署的多模態(tài)大模型

以 MiniCPM-2B 為基礎(chǔ)，團(tuán)隊(duì)還構(gòu)建了端側(cè)多模態(tài)大模型 MiniCPM-V。MiniCPM-V 可以部署在大多數(shù) GPU 卡和個(gè)人計(jì)算機(jī)上，甚至可以部署在手機(jī)等端側(cè)設(shè)備上，并支持中英文雙語(yǔ)多模態(tài)交互。

在視覺編碼方面，團(tuán)隊(duì)通過 perceiver 重采樣器將圖像表示壓縮為 64 個(gè) tokens，明顯少于其他基于 MLP 架構(gòu)的 lms(通常要大于 512tokens)。這使得 MiniCPM-V 在推理過程中以更少的內(nèi)存開銷和更高的速度運(yùn)行。

在多個(gè)基準(zhǔn)（包括 MMMU、MME 和 MMbech 等）中，MiniCPM-V 實(shí)現(xiàn)了更先進(jìn)的性能，超越了基于 Phi-2 構(gòu)建的現(xiàn)有多模態(tài)大模型，甚至達(dá)到了與 9.6B Qwen-VL-Chat 相當(dāng)或更好的性能。

添加圖片注釋，不超過 140 字（可選）

測(cè)試下 MiniCPM-V 的圖像識(shí)別能力，它成功識(shí)別出了圖片中有一只貓，并且正睡在毛毯上，并告訴我們不要打擾它。

添加圖片注釋，不超過 140 字（可選）

面壁智能表示，在進(jìn)行 Int4 量化后，MiniCPM 只占 2 GB 空間，具備在端側(cè)手機(jī)進(jìn)行模型部署的條件，消費(fèi)級(jí)顯卡也能流暢玩轉(zhuǎn)大模型。

此外，面壁智能還開源了擅長(zhǎng)視覺和語(yǔ)言建模的大型多模態(tài)模型 OmniLMM，目前發(fā)布了兩個(gè)特色版本，OmniLMM-12B 和 OmniLMM-3B。

在多模態(tài)視覺交互問答上，OmniLMM 與純文本的 ChatGPT3.5 結(jié)合，表現(xiàn)出了多重能力：實(shí)時(shí)動(dòng)作識(shí)別，理解玩游戲的取勝策略等：

視頻請(qǐng)到原文觀看

面壁智能也把多模態(tài)能力集成到更多圖片細(xì)節(jié)觀察能力上，比如導(dǎo)盲犬沒有穿標(biāo)識(shí)服裝，也可以通過“手杖”和“挽具”推測(cè)出它是一個(gè)導(dǎo)盲犬：

添加圖片注釋，不超過 140 字（可選）

對(duì)于錯(cuò)位圖片，OmniLMM 也能夠識(shí)別出來，實(shí)際上是一個(gè)人坐在椅子上，另一個(gè)人走在路上：

添加圖片注釋，不超過 140 字（可選）

對(duì)于幽默向的圖片，它也可以識(shí)別出來：一只狗穿著藍(lán)色襯衫和短褲在自拍，這不是一只狗的典型行為。

添加圖片注釋，不超過 140 字（可選）

目前，團(tuán)隊(duì)已經(jīng)針對(duì)不同的操作系統(tǒng)進(jìn)行了不同的適配。對(duì)于 Android、Harmony 系統(tǒng)，用戶需要使用開源框架 MLC-LLM 進(jìn)行模型適配，支持文本模型、多模態(tài)模型，適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V；對(duì)于 iOS 系統(tǒng)，則需使用開源框架 LLMFarm 進(jìn)行模型適配，僅支持文本模型，適用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。

添加圖片注釋，不超過 140 字（可選）

在不同手機(jī)型號(hào)上的相關(guān)驗(yàn)證數(shù)據(jù)

李大海表示，端側(cè)模型能夠?yàn)榇竽Ｐ秃?Agent 服務(wù)，因?yàn)槎烁频膮f(xié)同能夠讓應(yīng)用更好地落地。端側(cè)模型是大模型技術(shù)的積累，讓模型小型化、云上模型能夠用更小的規(guī)模實(shí)現(xiàn)更好的效果，與大模型技術(shù)是一脈相承的。

“省錢大模型”

“省錢大模型”是面壁智能對(duì) MiniCPM 另一個(gè)稱呼。

在李大?？磥?，成本會(huì)在未來大模型競(jìng)爭(zhēng)成為隱性競(jìng)爭(zhēng)優(yōu)勢(shì)?！岸藗?cè)模型的另外一點(diǎn)就是成本，成本是大模型的利潤(rùn)率，2023 年我們做非常多商業(yè)化實(shí)驗(yàn)的時(shí)候發(fā)現(xiàn)，客戶在很多應(yīng)用場(chǎng)景下都非常關(guān)注模型的成本。雖然千億模型效果很好，但真要大規(guī)模部署時(shí)還是有很多障礙?！?/span>

當(dāng)前，MiniCPM 的 int 4 量化版本壓縮了 75% 的尺寸，但性能幾乎無損，大大降低了模型對(duì)于內(nèi)存和閃存的需求。

以 OPPO 手機(jī)為例，驍龍 855 芯片，成本 600 元，一共運(yùn)行 5 年報(bào)廢，每秒運(yùn)行 7.5 tokens。以 5 年時(shí)間計(jì)算，170 萬(wàn) tokens 的推理成本僅為 1 元。這是幾乎只有在云端運(yùn)行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本則是 4700 tokens 1 元。

添加圖片注釋，不超過 140 字（可選）

除了在端側(cè)推理之外，MiniCPM 還有持續(xù)的成本改進(jìn)，因?yàn)樗銐蛐。恍枰?1 臺(tái)機(jī)器持續(xù)參數(shù)訓(xùn)練、1 張顯卡進(jìn)行高效參數(shù)微調(diào)。

添加圖片注釋，不超過 140 字（可選）

李大海表示，當(dāng)前手機(jī)推理未曾深入進(jìn)行優(yōu)化，而 GPU 加速已采用各種采樣加速進(jìn)行優(yōu)化，未來手機(jī)推理成本還可以進(jìn)一步降低。

“凡是能在端側(cè)用戶手里解決的算力，就不要到云側(cè)運(yùn)算，否則承擔(dān)的算力成本是不可想象的?！鼻迦A大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)說道。而對(duì)于未來更大算力問題的解決，劉知遠(yuǎn)表示答案一定是云端協(xié)同。端側(cè)大模型要找到它的天花板，并把天花板不斷抬高，這對(duì)商業(yè)化的大模型非常重要。

以小搏大，憑什么

李大海表示，小尺寸是模型技術(shù)的極限競(jìng)技場(chǎng)。那么，面壁智能團(tuán)隊(duì)如何實(shí)現(xiàn)“以小博大”？

全流程高效 Infra

“Infra 是大模型創(chuàng)業(yè)護(hù)城河，決定了公司的技術(shù)上限。”團(tuán)隊(duì) 2021 年開發(fā)的高效訓(xùn)練框架 BMTrain，是業(yè)界 SOTA 的分布式實(shí)現(xiàn)，將千億模型訓(xùn)練門檻拉低到 64 卡；高效推理框架 BMInf 高效采樣加速算法，采用稀疏激活方法實(shí)現(xiàn) 3 倍推理加速；高效壓縮框架 BMCook 進(jìn)行 Int4 無損壓縮，可實(shí)現(xiàn) 5 倍以上推理加速，降低 70% 的存儲(chǔ)開銷；高效微調(diào)框架 BMTune 內(nèi)含各種工具包。

算法論是面壁智能在過去三年實(shí)踐中總結(jié)出來的訓(xùn)練方法論，把大模型變成了實(shí)驗(yàn)科學(xué)，面壁智能的團(tuán)隊(duì)希望未來將其變成理論科學(xué)。

模型沙盒實(shí)驗(yàn)

面壁智能技術(shù)團(tuán)隊(duì)提出在小模型上進(jìn)行廣泛的實(shí)驗(yàn)，通過可遷移的配置，獲得大模型的最優(yōu)訓(xùn)練方法。具體而言，團(tuán)隊(duì)進(jìn)行了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五個(gè)方面的模型沙盒研究。

添加圖片注釋，不超過 140 字（可選）

在超參穩(wěn)定的模型規(guī)模擴(kuò)增上，團(tuán)隊(duì)對(duì)模型的各參數(shù)模塊之間進(jìn)行了連接權(quán)重的調(diào)整、以及對(duì)模型初始化的調(diào)整，部分調(diào)整接近 Cerebras-GPT。

Batchsize 決定了模型的收斂速度和消耗計(jì)算資源的平衡。對(duì)此，團(tuán)隊(duì)在 0.009B，0.036B，0.17B 的模型上分別進(jìn)行了 6 個(gè) batchsize 的訓(xùn)練實(shí)驗(yàn)，最終觀察到了最優(yōu) batchsize 隨著 C4 數(shù)據(jù)集上的 loss 的偏移規(guī)律。根據(jù)這個(gè)規(guī)律，團(tuán)隊(duì)預(yù)估了 2B 模型達(dá)到 C4 損失 2.5 左右，4M 是比較合適的 Batchsize。

最優(yōu)學(xué)習(xí)率上，團(tuán)隊(duì)通過在 0.04B, 0.1B, 0.3B, 0.5B 上分別做的 6 組學(xué)習(xí)率實(shí)驗(yàn)發(fā)現(xiàn)，雖然模型大小擴(kuò)大了 10 倍，但是最優(yōu)學(xué)習(xí)率偏移并不明顯，均在 0.01 左右。在 2.1B 的規(guī)模上進(jìn)行了簡(jiǎn)單驗(yàn)證，發(fā)現(xiàn)在 0.01 的學(xué)習(xí)率確實(shí)能取得最低的 Loss。

此外，團(tuán)隊(duì)還提出了一種新的學(xué)習(xí)率調(diào)度策略：Warmup-Stable-Decay（WSD）調(diào)度器。這種學(xué)習(xí)率調(diào)度器分為三個(gè)階段，warmup 階段（用 W 表示 warmup 階段結(jié)束時(shí)的步數(shù) / 訓(xùn)練量）、穩(wěn)定訓(xùn)練階段（用 S 表示穩(wěn)定訓(xùn)練階段結(jié)束時(shí)的步數(shù) / 訓(xùn)練量）和退火階段（用 D 表示退火階段的訓(xùn)練量）。

由于 WSD 調(diào)度器可以在任何階段退火，取得該階段最優(yōu)的模型，因此團(tuán)隊(duì)也探索了如果持續(xù)訓(xùn)練一個(gè)大小為 N 的模型，最優(yōu)情況下能超過多大參數(shù)量的 Chichilla-optimal 模型。

結(jié)果顯示，如果一個(gè)模型用面壁智能團(tuán)隊(duì)的 WSD 調(diào)度器訓(xùn)練，在消耗等量計(jì)算量時(shí)，可以達(dá)到約 5 倍模型參數(shù)量的 Chinchilla-optimal 模型。而持續(xù)訓(xùn)練下去，有可能超越更大的 Chinchilla-optimal 模型。

同時(shí)團(tuán)隊(duì)預(yù)測(cè)，9B 模型的 Chinchilla Optimal 的終態(tài) C4 Loss 約為 2.40，7B 模型約為 2.45。MiniCPM 的最終 C4 Loss 為 2.41，接近于 9B 的 Chinchilla Optimal 模型。

發(fā)布 MiniCPM 之前，團(tuán)隊(duì)做了上千次的模型沙盒實(shí)驗(yàn)，探索出的最優(yōu)配置為：WSD LRS，batchsize 為 3.93M，Max Learning Rate 為 0.01。

高質(zhì)量數(shù)據(jù)

除了技術(shù)積累之外，面壁智能在 MiniCPM 的訓(xùn)練中，也追求數(shù)據(jù)的極致高效。

這次，MiniCPM 公開了訓(xùn)練的兩個(gè)數(shù)據(jù)配方。在穩(wěn)定訓(xùn)練階段，團(tuán)隊(duì)使用了 1T 的去重后數(shù)據(jù)，其中大部分?jǐn)?shù)據(jù)從開源數(shù)據(jù)中收集而來：

添加圖片注釋，不超過 140 字（可選）

退火階段，SFT 數(shù)據(jù)配比如下：

添加圖片注釋，不超過 140 字（可選）

“用更低的成本完成最小的模型，我們沒有在追趕，我們一直領(lǐng)先?！眲⒅h(yuǎn)說道。

更多技術(shù)細(xì)節(jié)可以查看：

https://shengdinghu./MiniCPM-c805a17c5c8046398914e47f0542095a

結(jié)束語(yǔ)

作為 2024 年的首次對(duì)外發(fā)布，李大海也回顧了面壁智能的成長(zhǎng)歷程：

“面壁智能是最早的大模型研究團(tuán)隊(duì)之一。2018 年，我們脫胎于清華 NLP 實(shí)驗(yàn)室發(fā)布 ERNIE 模型，ERNIE 模型是全球首個(gè)知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型；2020 年 12 月，我們是悟道大模型首發(fā)主力陣容；2022 年 4 月，OpenBMB 開源社區(qū)成立；2022 年 8 月，面壁智能公司化運(yùn)作；2023 年，經(jīng)歷了兩輪融資，其中第一輪是知乎獨(dú)家天使輪融資，也是這一年，面壁智能領(lǐng)跑 Agent 研究發(fā)布了 AgentVerse、ChatDev、XAgent 等框架?！?/span>

如今已經(jīng)擁有超 100 人的科研團(tuán)隊(duì)，其中“清華”含量 80%，平均年齡 28 歲，還有來自阿里、字節(jié)、百度等公司的人才。

未來，面壁智能表示將貫徹“大模型 +Agent”雙引擎戰(zhàn)略，致力于更小規(guī)模、更快速度和更低成本的實(shí)現(xiàn)。

原文鏈接：

https://www./news/dQmGdaleo5P0I2NVCxpZ

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： long16 > 《人工智能1》

舉報(bào)/認(rèn)領(lǐng)