清華團(tuán)隊提出“智能體醫(yī)院”：醫(yī)生智能體可實現(xiàn)自我進(jìn)化｜大模型周報

奧莉芙小異 2024-08-17 發(fā)布于江西

展開全文

清華團(tuán)隊提出“智能體醫(yī)院”：醫(yī)生智能體可實現(xiàn)自我進(jìn)化
清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT
具有 3D 理解能力的語言-圖像模型
清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench
美團(tuán)提出視頻生成模型 Matten，采用 Mamba-Attention 架構(gòu)
注意力驅(qū)動的免訓(xùn)練擴散模型效率提升
IBM 推出開源代碼大模型 Granite
AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE
“文生視頻”新研究：多場景文生視頻的時間對齊字幕
StyleMamba：高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型

想要第一時間獲取每日最新大模型熱門論文？
掃描下方二維碼，加入「大模型技術(shù)分享群」。
或點擊“閱讀原文”，獲取「2024 必讀大模型論文」合集（包括日報、周報、月報，持續(xù)更新中～）。

1.清華團(tuán)隊提出“智能體醫(yī)院”：醫(yī)生智能體可實現(xiàn)自我進(jìn)化

在這項工作中，來自清華大學(xué)的研究團(tuán)隊提出了一種名為“智能體醫(yī)院”（Agent Hospital）的模擬醫(yī)院，它可以模擬治療疾病的整個過程。其中，所有病人、護(hù)士和醫(yī)生都是由大型語言模型（LLM）驅(qū)動的自主智能體。

該研究的核心目標(biāo)是讓醫(yī)生智能體學(xué)會如何在模擬環(huán)境中治療疾病。為此，研究團(tuán)隊提出了一種名為 MedAgent-Zero 的方法。由于仿真系統(tǒng)可以根據(jù)知識庫和 LLM 模擬疾病的發(fā)生和發(fā)展，醫(yī)生智能體可以不斷從成功和失敗的病例中積累經(jīng)驗。

模擬實驗表明，醫(yī)生智能體在各種任務(wù)中的治療效果都在不斷提高。更有趣的是，醫(yī)生智能體在“智能體醫(yī)院”中獲得的知識適用于現(xiàn)實世界的醫(yī)療保健基準(zhǔn)。在治療了約一萬名患者后（現(xiàn)實世界中的醫(yī)生可能需要花費兩年多的時間），進(jìn)化后的醫(yī)生智能體在涵蓋主要呼吸系統(tǒng)疾病的 MedQA 數(shù)據(jù)集子集上達(dá)到了 93.06% 的準(zhǔn)確率。

論文鏈接：

https:///abs/2405.02957

2.清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT

近年來，擴散模型在圖像生成方面表現(xiàn)出了卓越的性能。然而，由于在生成超高分辨率圖像（如 4096*4096）的過程中內(nèi)存會二次增加，生成圖像的分辨率往往被限制在 1024*1024。

在這項工作中，來自清華和智譜AI 的研究團(tuán)隊提出了一種單向塊（unidirectional block）注意力機制，其可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷，并處理全局依賴關(guān)系。在此模塊的基礎(chǔ)上，他們采用 DiT 結(jié)構(gòu)進(jìn)行上采樣，并開發(fā)了一種無限超分辨率模型，能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣。

綜合實驗表明，這一模型在生成超高分辨率圖像方面達(dá)到了機器和人工評估的 SOTA 性能。與常用的 UNet 結(jié)構(gòu)相比，這一模型在生成 4096*4096 圖像時可以節(jié)省 5 倍以上的內(nèi)存。

論文鏈接：

https:///abs/2405.04312

3.具有 3D 理解能力的語言-圖像模型

多模態(tài)大型語言模型（MLLMs）在各種 2D 視覺和語言任務(wù)中表現(xiàn)出了驚人的能力。來自德州大學(xué)奧斯汀分校、英偉達(dá)的研究團(tuán)隊將 MLLM 的感知能力擴展進(jìn)了 3D 空間的圖像基準(zhǔn)（ground）和推理。

他們首先開發(fā)了一個大規(guī)模的 2D 和 3D 預(yù)訓(xùn)練數(shù)據(jù)集——LV3D，該數(shù)據(jù)集將現(xiàn)有的多個 2D 和 3D 識別數(shù)據(jù)集結(jié)合在一個共同的任務(wù)表述下：作為多輪問題解答；然后，他們提出了一種名為 Cube-LLM 的新型 MLLM，并在 LV3D 上對其進(jìn)行了預(yù)訓(xùn)練。研究表明，純粹的數(shù)據(jù)縮放可以產(chǎn)生強大的 3D 感知能力，而無需特定的 3D 架構(gòu)設(shè)計或訓(xùn)練目標(biāo)。

另外，Cube-LLM 具有與 LLM 相似的特性：1）Cube-LLM 可以應(yīng)用思維鏈提示，從 2D 上下文信息中提高 3D 理解能力；2）Cube-LLM 可以遵循復(fù)雜多樣的指令，并適應(yīng)多種輸入和輸出格式；3）Cube-LLM 可接受視覺提示，如專家提供的 2D box 或一組候選 3D box。

室外基準(zhǔn)測試表明，Cube-LLM 在 3D 基礎(chǔ)推理 Talk2Car 數(shù)據(jù)集和復(fù)雜駕駛場景推理 DriveLM 數(shù)據(jù)集上的表現(xiàn)，明顯優(yōu)于現(xiàn)有基準(zhǔn)，分別比 AP-BEV 高出 21.3 分和 17.7 分。此外，Cube-LLM 還在 MLLM 基準(zhǔn)（如用于 2D 基礎(chǔ)推理的 refCOCO）以及視覺問題解答基準(zhǔn)（如用于復(fù)雜推理的 VQAv2、GQA、SQA、POPE 等）中顯示出具有競爭力的結(jié)果。

論文鏈接：

https:///abs/2405.03685

項目地址：

https://janghyuncho./Cube-LLM/

4.清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench

大型語言模型（LLM）在為生產(chǎn)活動生成代碼方面表現(xiàn)出強大的能力。然而，目前的代碼合成基準(zhǔn)，如 HumanEval、MBPP 和 DS-1000，主要面向算法和數(shù)據(jù)科學(xué)的入門任務(wù)，不能充分滿足現(xiàn)實世界中普遍存在的編碼挑戰(zhàn)要求。

為了填補這一空白，來自清華大學(xué)和智譜AI 的研究團(tuán)隊提出了自然代碼基準(zhǔn)（NaturalCodeBench，簡稱 NCB），這是一個具有挑戰(zhàn)性的代碼基準(zhǔn)，旨在反映真實編碼任務(wù)的復(fù)雜性和場景的多樣性。

據(jù)介紹，NCB 由 402 個 Python 和 Java 中的高質(zhì)量問題組成，這些問題都是從在線編碼服務(wù)的自然用戶查詢中精心挑選出來的，涵蓋 6 個不同的領(lǐng)域?？紤]到為真實世界的查詢創(chuàng)建測試用例異常困難，他們還提出了一個半自動化管道，從而提高測試用例構(gòu)建的效率。與人工解決方案相比，其效率提高了 4 倍多。

他們在 39 個 LLM 上進(jìn)行的系統(tǒng)實驗發(fā)現(xiàn)，HumanEval 分?jǐn)?shù)接近的模型之間在 NCB 上的性能差距仍然很大，這表明我們對實際代碼合成場景缺乏關(guān)注，或者對 HumanEval 進(jìn)行了過度優(yōu)化。另一方面，即使是性能最好的 GPT-4 在 NCB 上的表現(xiàn)也遠(yuǎn)遠(yuǎn)不能令人滿意。

論文鏈接：

https:///abs/2405.04520

GitHub 地址：

https://github.com/THUDM/NaturalCodeBench

5.美團(tuán)提出視頻生成模型 Matten，采用 Mamba-Attention 架構(gòu)

在這項工作中，來自美團(tuán)的研究團(tuán)隊提出了一種采用 Mamba-Attention 架構(gòu)、用于視頻生成的潛在擴散模型——Matten。Matten 采用空間-時間注意力進(jìn)行局部視頻內(nèi)容建模，采用雙向 Mamba 進(jìn)行全局視頻內(nèi)容建模，計算成本低。

綜合實驗評估表明，在基準(zhǔn)性能方面，Matten 與當(dāng)前基于 Transformer 和 GAN 的模型相比具有很強的競爭力，可獲得更高的 FVD 分?jǐn)?shù)和效率。此外，他們還觀察到所設(shè)計模型的復(fù)雜度與視頻質(zhì)量的改善之間存在直接的正相關(guān)關(guān)系，這表明 Matten 具有出色的可擴展性。

論文鏈接：

https:///abs/2405.03025

6.注意力驅(qū)動的免訓(xùn)練擴散模型效率提升

擴散模型（DMs）在生成高質(zhì)量和多樣化的圖像方面表現(xiàn)出優(yōu)越的性能。

然而，這種卓越的性能以昂貴的架構(gòu)設(shè)計為代價，特別是在領(lǐng)先模型中大量使用了 attention 模塊?，F(xiàn)有工作主要采用再訓(xùn)練流程來提高數(shù)據(jù)挖掘效率。這在計算上是昂貴的，且不太可擴展。

為此，來自普林斯頓大學(xué)和 Adobe 的研究團(tuán)隊提出了注意力驅(qū)動的免訓(xùn)練高校擴散模型（AT-EDM）框架，其利用注意力圖來執(zhí)行冗余 Token 的運行時修剪，而不需要任何再訓(xùn)練。具體來說，對于單步去噪修剪，他們開發(fā)了一種新的排序算法—— 通用加權(quán)頁面排序（G-WPR），從而識別冗余的 Token，以及一種基于相似性的方法去恢復(fù)卷積操作的 Token。此外，他們還提出了一種去噪步驟感知的剪枝（DSAP）方法，來調(diào)整不同去噪時間步的剪枝預(yù)算，從而獲得更好的生成質(zhì)量。

廣泛的評估表明，AT-EDM 在效率方面優(yōu)于現(xiàn)有技術(shù)（例如，與 Stable Diffusion XL 相比，節(jié)省了 38.8% 的 FLOPs 和高達(dá) 1.53 倍的加速），同時保持與完整模型幾乎相同的 FID 和 CLIP 分?jǐn)?shù)。

論文鏈接：

https:///abs/2405.05252

GitHub 地址：

https://atedm./

7.IBM 推出開源代碼大模型 Granite

經(jīng)過代碼訓(xùn)練的大型語言模型（LLM）正在徹底改變軟件開發(fā)過程。為了提高人類程序員的工作效率，越來越多的代碼 LLM 被集成到軟件開發(fā)環(huán)境中，而基于 LLM 的智能體也開始顯示出自主處理復(fù)雜任務(wù)的前景。要充分發(fā)揮代碼 LLM 的潛力，需要具備廣泛的能力，包括代碼生成、修復(fù)錯誤、解釋和維護(hù)資源庫等。

在這項工作中，IBM 團(tuán)隊提出了用于代碼生成任務(wù)的純解碼器 Granite 系列代碼模型，這些模型是用 116 種編程語言編寫的代碼訓(xùn)練而成的，由大小從 30 億到 340 億個參數(shù)不等的模型組成，適用于從復(fù)雜的應(yīng)用現(xiàn)代化任務(wù)到設(shè)備內(nèi)存受限用例等各種應(yīng)用。

對一整套任務(wù)的評估表明，在現(xiàn)有的開源代碼 LLM 中，Granite 代碼模型的性能始終處于領(lǐng)先水平。另外，Granite 代碼模型系列針對企業(yè)軟件開發(fā)工作流程進(jìn)行了優(yōu)化，在一系列編碼任務(wù)（如代碼生成、修正和解釋）中表現(xiàn)出色。此外，團(tuán)隊已在 Apache 2.0 許可下發(fā)布了所有 Granite 代碼模型，供研究和商業(yè)使用。

論文鏈接：

https:///abs/2405.04324

8.AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE

在大型視覺語言模型（LVLM）中減少幻覺仍然是一個未解決的問題。目前的基準(zhǔn)并沒有解決開放式自由回答中的幻覺問題，即“第一類幻覺”，相反，其關(guān)注的是對非常具體的問題格式做出反應(yīng)的幻覺——通常是關(guān)于特定對象或?qū)傩缘亩囗椷x擇反應(yīng)——即“第二類幻覺”。此外，此類基準(zhǔn)通常需要外部 API 調(diào)用模型，而這些模型可能會發(fā)生變化。

在實踐中，來自 AWS 和牛津大學(xué)的研究團(tuán)隊發(fā)現(xiàn)，減少第二類幻覺并不會導(dǎo)致第一類幻覺的減少，相反，這兩種形式的幻覺往往互不相關(guān)。為了解決這個問題，他們提出了 THRONE，這是一個基于對象的新型自動框架，用于定量評估 LVLM 自由形式輸出中的第一類幻覺。

他們使用公共語言模型來識別 LVLM 反應(yīng)中的幻覺，并計算相關(guān)指標(biāo)。通過使用公共數(shù)據(jù)集對大量最新的 LVLM 進(jìn)行評估，他們發(fā)現(xiàn)，現(xiàn)有指標(biāo)的改進(jìn)并不會導(dǎo)致第一類幻覺的減少，而且現(xiàn)有的第一類幻覺測量基準(zhǔn)并不完整。最后，他們提供了一種簡單有效的數(shù)據(jù)增強方法，從而減少第一類和第二類幻覺，并以此作為強有力的基準(zhǔn)。

論文鏈接：

https:///abs/2405.05256

9.“文生視頻”新研究：多場景文生視頻的時間對齊字幕

文生視頻（T2V）模型可以在文本提示的條件下生成高質(zhì)量的視頻。這些 T2V 模型通常產(chǎn)生單場景視頻片段，描述執(zhí)行特定動作的實體（比如，一只小熊貓爬樹）。然而，生成多場景視頻是非常重要的，因為它們在現(xiàn)實世界中無處不在（比如，一只小熊貓爬上樹，然后睡在樹頂上）。

為了從預(yù)訓(xùn)練的 T2V 模型生成多場景視頻，來自加州大學(xué)洛杉磯分校和谷歌的研究團(tuán)隊提出了時間對齊字幕（TALC）框架，增強了 T2V 模型中的文本條件作用機制，從而識別視頻場景和場景描述之間的時間對齊。例如，他們用第一個場景描述（一只小熊貓在爬樹）和第二個場景描述（小熊貓睡在樹頂上）的表示對生成視頻的早期和后期場景的視覺特征進(jìn)行條件約束。T2V 模型可以生成符合多場景文本描述的多場景視頻，并在視覺上保持一致（如實體和背景）。

此外，他們使用 TALC 框架用多場景視頻-文本數(shù)據(jù)對預(yù)訓(xùn)練的 T2V 模型進(jìn)行微調(diào)。研究表明，用 TALC 微調(diào)的模型在總分?jǐn)?shù)上比基線方法高出 15.5 分。

論文鏈接：

https:///abs/2405.04682

GitHub 地址：

https://talc-mst2v./

10.StyleMamba：高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型

來自帝國理工學(xué)院、芬蘭奧盧理工大學(xué)和戴爾的研究團(tuán)隊提出了一種有效的圖像風(fēng)格遷移框架——StyleMamba，其能夠?qū)⑽谋咎崾痉g為相應(yīng)的視覺風(fēng)格，同時保留原始圖像的內(nèi)容完整性。

現(xiàn)有的文本引導(dǎo)樣式化需要數(shù)百次訓(xùn)練迭代，并且需要大量的計算資源。為加快這一過程，他們提出了一種條件狀態(tài)空間模型 StyleMamba，用于有效的文本驅(qū)動圖像風(fēng)格遷移，按順序?qū)D像特征與目標(biāo)文本提示對齊。為了增強文本和圖像之間的局部和全局風(fēng)格一致性，他們提出了掩碼和二階方向損失來優(yōu)化風(fēng)格化方向，將訓(xùn)練迭代次數(shù)顯著減少5次，推理時間顯著減少3次。

廣泛的實驗和定性評估證實，與現(xiàn)有的基線相比，所提出方法達(dá)到了 SOTA。

論文鏈接：

https:///abs/2405.05027