|
本文來自DataLearnerAI官方網(wǎng)站: https://www./blog/1051701842078748 在GPT-4這種超大基座模型發(fā)布之后,一個(gè)非?;钴S的方向是專有模型的發(fā)展。即一個(gè)普遍的觀點(diǎn)認(rèn)為,基座大模型雖然有很好的通用基礎(chǔ)知識(shí),但是對(duì)于專有的領(lǐng)域如醫(yī)學(xué)、金融領(lǐng)域等,缺少專門的語(yǔ)料訓(xùn)練,因此可能表現(xiàn)并不那么好。如果我們使用專有數(shù)據(jù)訓(xùn)練一個(gè)領(lǐng)域大模型可能是一種非常好的思路,也是一種非常理想的商業(yè)策略。但是,微軟最新的一個(gè)研究表明,通用基座大模型如果使用恰當(dāng)?shù)膒rompt,也許并不比專有模型差!同時(shí),他們還提出了一個(gè)非常新穎的動(dòng)態(tài)prompt生成策略,結(jié)合了領(lǐng)域數(shù)據(jù),非常值得大家參考。 ![]()
基座模型 vs 領(lǐng)域大模型長(zhǎng)久以來都有一種觀點(diǎn),通用基座大模型如GPT-4等,雖然在廣發(fā)的任務(wù)上都有非常不錯(cuò)的表現(xiàn),但是對(duì)于醫(yī)學(xué)、金融等領(lǐng)域來說,使用基座大模型+領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào)獲得一個(gè)專用大模型的效果更好。這也是當(dāng)前非常主流的認(rèn)知和觀點(diǎn),也是非常多的公司的商業(yè)邏輯。因此,誕生了如BioGPT、PubMedBERT、Med-PaLM 2等知名的領(lǐng)域大模型。 而微軟的研究人員這并不是經(jīng)過科學(xué)驗(yàn)證的結(jié)論。是否可以通過更加精巧的Prompt技術(shù)來解鎖大模型的能力以獲得近似微調(diào)的效果是一個(gè)值得探索的方向。為此,他們選擇醫(yī)學(xué)領(lǐng)域作為一個(gè)測(cè)試,設(shè)計(jì)了一種非常新穎的Prompt技術(shù),結(jié)合了領(lǐng)域數(shù)據(jù),驗(yàn)證GPT-4是否在不微調(diào)的情況下超越領(lǐng)域?qū)S么竽P停ㄈ鏜ed-PaLM2),注意,也就是說這里是使用通用大模型+prompt技術(shù)挑戰(zhàn)專用大模型在專業(yè)領(lǐng)域的效果。 而這個(gè)結(jié)論是可以的。下圖是微軟測(cè)試的高級(jí)Prompt+GPT-4與簡(jiǎn)單Prompt+GPT-4和Med-PaLM2的對(duì)比結(jié)果。 Med-PaLM2是Google發(fā)布的一個(gè)針對(duì)醫(yī)學(xué)領(lǐng)域的大模型,在MedQA數(shù)據(jù)集的測(cè)試上拿下了86.5%的高分。超過了GPT-4的基礎(chǔ)模型。而微軟通過MedPrompt提示工程技術(shù),直接讓GPT-4在醫(yī)學(xué)領(lǐng)域的評(píng)測(cè)結(jié)果超過了Med-PaLM2。 下圖是微軟測(cè)試的結(jié)果: ![]() 微軟Prompt新方法MedPrompt微軟提到的這個(gè)Prompt方法實(shí)際上是一種結(jié)合了訓(xùn)練數(shù)據(jù)的few-shot方法。簡(jiǎn)單來說,在prompt中加入few-shot案例,可以大幅提高模型的性能。但是傳統(tǒng)技術(shù)上都是直接使用固定的few-shot案例,這顯然是低效的。在大量的領(lǐng)域知識(shí)中這種使用方式幾乎不可行。為此,微軟考慮讓模型自動(dòng)搜索領(lǐng)域知識(shí),然后生成few-shot樣例再為用戶提供答案。 在微軟的案例中,具體來說,就是為GPT-4準(zhǔn)備醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練數(shù)據(jù),在GPT-4回答用戶領(lǐng)域問題之前,先通過檢索的方法從訓(xùn)練數(shù)據(jù)中找到近似的問答結(jié)果,然后構(gòu)造few-shot案例,嵌入用戶的輸入中,再讓模型回答問題。 而微軟這種通過訓(xùn)練數(shù)據(jù)構(gòu)造few-shot的MedPrompt也不是簡(jiǎn)單的選擇訓(xùn)練數(shù)據(jù)回答,而是包括三個(gè)方法的框架: 動(dòng)態(tài)少樣本選擇(Dynamic few-shot)根據(jù)測(cè)試樣本選擇k個(gè)訓(xùn)練樣本,使其與測(cè)試樣本語(yǔ)義最相似,構(gòu)成少樣本展示。使用text-embedding-ada-002模型將樣本映射為向量表示,基于向量空間距離計(jì)算相似性。 這個(gè)動(dòng)態(tài)選擇樣本的方式相比此前那種固定的few-shot方式有個(gè)最大的好處是可以借助領(lǐng)域數(shù)據(jù)動(dòng)態(tài)構(gòu)建few-shot案例,而不是固定的結(jié)果,這種方式更加靈活高效。這種方法還可以結(jié)合傳統(tǒng)的kNN技術(shù)獲得更好的效果。 而使用向量相似度檢索可以大幅提升找到相關(guān)數(shù)據(jù)的概率。 自生成思維鏈(Self-generated chain of thought)思維鏈(Chain of Thought, CoT)技術(shù)是一種大模型改進(jìn)的大模型prompt技術(shù),它通過提供少量提示(few-shot)來分解復(fù)雜的思維。實(shí)際操作中只是加上類似這樣“Let’s think step by step,”這樣鼓勵(lì)大模型通過更細(xì)的步驟來解決問題就可以獲得不錯(cuò)的效果。這種方法已被發(fā)現(xiàn)可以提高LLM在復(fù)雜算術(shù)、常識(shí)和符號(hào)推理任務(wù)上的性能。 微軟結(jié)合前面的動(dòng)態(tài)選擇訓(xùn)練數(shù)據(jù),使用GPT-4來自主生成每道題目的詳細(xì)思維展示,作為Prompt(提示)給GPT-4使用。 這個(gè)過程發(fā)生在預(yù)處理階段,將所有的領(lǐng)域數(shù)據(jù)通過自生成思維鏈技術(shù)進(jìn)行處理,生成一個(gè)更加優(yōu)質(zhì)的Prompt示例,這樣在動(dòng)態(tài)few-shot選擇的時(shí)候可以獲得更加高質(zhì)量的prompt模板。 作者對(duì)比了GPT-4生成的思維鏈與專家生成的對(duì)比,相比較而言GPT-4的CoT細(xì)節(jié)更豐富,甚至比專家設(shè)計(jì)的更好。 ![]() 上圖是微軟的自生成思維鏈的實(shí)例,給定一個(gè)選擇題,以及正確的答案,專家生成的CoT實(shí)例和GPT-4的生成的CoT對(duì)比,可以看到GPT-4生成的更加詳細(xì)。 讓GPT-4根據(jù)數(shù)據(jù)生成CoT的過程也比較簡(jiǎn)單,模板如下(第二個(gè)圖是DataLearner測(cè)試結(jié)果): ![]() ![]() 也就是說微軟先用GPT-4在領(lǐng)域數(shù)據(jù)中自動(dòng)生成CoT的數(shù)據(jù),然后動(dòng)態(tài)prompt生成few-shot時(shí)候基于這些改造成CoT回答的樣例告訴模型如何回答。 選項(xiàng)洗牌集成(Choice Shuffling Ensemble)這個(gè)方法主要解決大模型的一些不穩(wěn)定的問題。我們都知道大模型的問題的回答通常有一定的隨機(jī)性。這種方法的核心在于通過改變問題中的選項(xiàng)順序,然后觀察模型對(duì)不同順序下選擇的一致性,以此來減少模型對(duì)某些選項(xiàng)的偏好。 具體來說,它是在模型已經(jīng)接收到問題和任何相關(guān)提示(如在Medprompt方法中的動(dòng)態(tài)少樣本選擇和自動(dòng)生成的思維鏈)之后,但在最終決定答案之前使用的。 這個(gè)方法的集成部分主要是指將模型在不同選項(xiàng)順序情況下生成的多個(gè)答案進(jìn)行匯總和分析。集成的目的是從這些不同情況下的答案中得到最終的、更可靠的答案。具體步驟如下:
通過這種方法,研究者能夠減少模型在回答多項(xiàng)選擇題時(shí)對(duì)特定選項(xiàng)位置的偏好,從而提高答案的準(zhǔn)確性和模型的可靠性。 MedPrompt效果在這篇論文中,作者給出了很多測(cè)試,來證明使用上述Prompt方法是可以達(dá)到或者接近fine-tuning效果的。下圖是模型在MedQA準(zhǔn)確率的結(jié)果: ![]() 上圖是最終的結(jié)果,展示了不同技術(shù)的效果:
可以看到,這個(gè)技術(shù)可以將GPT-4在醫(yī)學(xué)領(lǐng)域的成績(jī)從81.7分提高到了90.2分。而谷歌的Med-PaLM2在MedQA得分是86.5分! 所有的評(píng)測(cè)結(jié)果如下:
總結(jié) 這個(gè)論文其實(shí)貢獻(xiàn)了很多重要的有價(jià)值的結(jié)論,主要包括:
但是,這個(gè)結(jié)論也未必適合所有情況,因?yàn)槭紫菺PT-4模型已經(jīng)有了很好的醫(yī)學(xué)基礎(chǔ)。也就是說,基座模型的強(qiáng)大可能是前提,如果基座模型不行,可能也會(huì)影響這個(gè)方法的效果。 |
|
|