Stability AI火速發(fā)布Llama 2微調(diào)模型FreeWilly，性能媲美ChatGPT！網(wǎng)友驚呼游戲規(guī)則已改變

天承辦公室 2023-07-23 發(fā)布于江蘇

展開全文

新智元報(bào)道

編輯：好困 Aeneas

【新智元導(dǎo)讀】Llama 2剛發(fā)布沒兩天，獨(dú)角獸Stability AI就已經(jīng)火速微調(diào)出了FreeWilly模型，據(jù)稱性能已經(jīng)可與ChatGPT媲美。

Meta的Llama 2一發(fā)布，就引爆了整個(gè)開源社區(qū)。

正如OpenAI科學(xué)家Karpathy所說，對于整個(gè)大語言模型領(lǐng)域來說，這是極其重要的一天。在開放權(quán)重的所有模型中，Llama 2是最強(qiáng)大的一個(gè)。

從此，開源大模型與閉源大模型的差距將進(jìn)一步縮小，構(gòu)建大模型的機(jī)會，從此對所有開發(fā)者都是平等的。

就在剛剛，Stability AI和CarperAI實(shí)驗(yàn)室聯(lián)合發(fā)布了基于LLaMA 2 70B模型的微調(diào)模型——FreeWilly2。

以及，基于LLaMA 65B原始模型微調(diào)的——FreeWilly1。

值得注意的是，模型采用了基于標(biāo)準(zhǔn)Alpaca格式，并經(jīng)過監(jiān)督微調(diào)（SFT）的全新合成數(shù)據(jù)集來進(jìn)行訓(xùn)練。

在各項(xiàng)基準(zhǔn)測試中，F(xiàn)reeWilly2都展現(xiàn)出了卓越的推理能力，甚至有部分任務(wù)還超過了GPT-3.5。

模型地址：https:///stabilityai/FreeWilly2

模型地址：https:///stabilityai/FreeWilly1-Delta-SafeTensor

這兩款模型都是研究實(shí)驗(yàn)，并在非商業(yè)許可下發(fā)布。

數(shù)據(jù)生成與收集

Stability AI表示，F(xiàn)reeWilly模型的訓(xùn)練是受到了微軟論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》的直接啟發(fā)。

不過，雖然數(shù)據(jù)生成過程類似，但來源卻有所不同。

論文鏈接：https:///pdf/2306.02707.pdf

FreeWilly的數(shù)據(jù)集變體包含有60萬個(gè)數(shù)據(jù)點(diǎn)（大約是原始Orca論文使用的數(shù)據(jù)集大小的10%），并通過使用Enrico Shippole創(chuàng)建的高質(zhì)量指令數(shù)據(jù)集，對模型進(jìn)行了引導(dǎo)：

- COT Submix Original

- NIV2 Submix Original

- FLAN 2021 Submix Original

- T0 Submix Original

通過這種方法，Stability AI使用了一個(gè)較簡單的LLM模型生成了50萬個(gè)示例，再使用一個(gè)更復(fù)雜的LLM模型生成了額外的10萬個(gè)示例。

為了進(jìn)行公平比較，Stability AI精心篩選了這些數(shù)據(jù)集，并刪除了來源于評估基準(zhǔn)的示例。

盡管訓(xùn)練樣本量僅為原始Orca論文的十分之一，但由此生成的FreeWilly模型，不僅在各種基準(zhǔn)測試中都表現(xiàn)出色，而且也驗(yàn)證了合成生成數(shù)據(jù)集方法的可行性。

模型性能的評估

在性能評估方面，Stability AI的研究人員采用了EleutherAI的lm-eval-harness，并加入了AGIEval。

從結(jié)果來看，F(xiàn)reeWilly在很多方面都表現(xiàn)出色，包括復(fù)雜的推理、理解語言的微妙之處，以及回答與專業(yè)領(lǐng)域相關(guān)的復(fù)雜問題（如法律和數(shù)學(xué)問題解決）。

基本上，F(xiàn)reeWilly 2已經(jīng)實(shí)現(xiàn)了與ChatGPT相當(dāng)?shù)乃?，甚至在有些評測上更勝一籌。

GPT4ALL基準(zhǔn)（0-shot）：

AGI評估（0-shot）：

除此之外，來自Hugging Face的團(tuán)隊(duì)也在7月21日對實(shí)驗(yàn)進(jìn)行了獨(dú)立復(fù)現(xiàn)。

可以看到，在Open LLM排行榜上，F(xiàn)reeWilly 2以絕對領(lǐng)先的優(yōu)勢排在第一，平均得分比原始版的Llama 2高了4個(gè)百分點(diǎn)。

為了開放的未來

可以說，F(xiàn)reeWilly1和FreeWilly2為開源大語言模型樹立了新的標(biāo)準(zhǔn)。

這兩個(gè)模型的推出，不僅極大地推進(jìn)了相關(guān)領(lǐng)域的研究，增強(qiáng)了自然語言理解能力，而且還支持復(fù)雜任務(wù)的完成。

Stability AI表示，團(tuán)隊(duì)為這些模型能AI社區(qū)帶來的無限可能感到非常興奮，并期待著那些因它們而激發(fā)出全新應(yīng)用。

此外，也衷心感謝充滿激情的研究人員、工程師和合作伙伴團(tuán)隊(duì)，是他們的卓越努力和奉獻(xiàn)，使Stability AI能夠達(dá)到這一重要里程碑。

激動人心的時(shí)刻

模型一經(jīng)發(fā)布，網(wǎng)友「Phil Howes」就利用Tuhin Srivastava的Llama v2框架，在不到一分鐘時(shí)間就完成了FreeWilly 2的實(shí)現(xiàn)。

經(jīng)過275GB的權(quán)重加載后，模型的運(yùn)行速度在開箱即用的情況下達(dá)到了23 token/s。

另外，還有網(wǎng)友驚呼：Stability AI和CarperAI聯(lián)合推出的模型，堪稱是對游戲規(guī)則的改變！

FreeWilly1和FreeWilly2在開源和性能方面具有極大的創(chuàng)新意義，AI圈正在迎來令人激動的時(shí)刻。

參考資料：

https:///blog/freewilly-large-instruction-fine-tuned-models

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《023新智元說》

舉報(bào)/認(rèn)領(lǐng)