电竞比分网-中国电竞赛事及体育赛事平台

分享

清華團(tuán)隊提出“智能體醫(yī)院”:醫(yī)生智能體可實現(xiàn)自我進(jìn)化|大模型周報

 奧莉芙小異 2024-08-17 發(fā)布于江西
  • 清華團(tuán)隊提出“智能體醫(yī)院”:醫(yī)生智能體可實現(xiàn)自我進(jìn)化

  • 清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT

  • 具有 3D 理解能力的語言-圖像模型

  • 清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench

  • 美團(tuán)提出視頻生成模型 Matten,采用 Mamba-Attention 架構(gòu)

  • 注意力驅(qū)動的免訓(xùn)練擴散模型效率提升

  • IBM 推出開源代碼大模型 Granite

  • AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE

  • “文生視頻”新研究:多場景文生視頻的時間對齊字幕

  • StyleMamba:高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型

想要第一時間獲取每日最新大模型熱門論文?
掃描下方二維碼,加入「大模型技術(shù)分享群」。
或點擊“閱讀原文”,獲取「2024 必讀大模型論文」合集(包括日報、周報、月報,持續(xù)更新中~)。



1.清華團(tuán)隊提出“智能體醫(yī)院”:醫(yī)生智能體可實現(xiàn)自我進(jìn)化

在這項工作中,來自清華大學(xué)的研究團(tuán)隊提出了一種名為“智能體醫(yī)院”(Agent Hospital)的模擬醫(yī)院,它可以模擬治療疾病的整個過程。其中,所有病人、護(hù)士和醫(yī)生都是由大型語言模型(LLM)驅(qū)動的自主智能體。

該研究的核心目標(biāo)是讓醫(yī)生智能體學(xué)會如何在模擬環(huán)境中治療疾病。為此,研究團(tuán)隊提出了一種名為 MedAgent-Zero 的方法。由于仿真系統(tǒng)可以根據(jù)知識庫和 LLM 模擬疾病的發(fā)生和發(fā)展,醫(yī)生智能體可以不斷從成功和失敗的病例中積累經(jīng)驗。

模擬實驗表明,醫(yī)生智能體在各種任務(wù)中的治療效果都在不斷提高。更有趣的是,醫(yī)生智能體在“智能體醫(yī)院”中獲得的知識適用于現(xiàn)實世界的醫(yī)療保健基準(zhǔn)。在治療了約一萬名患者后(現(xiàn)實世界中的醫(yī)生可能需要花費兩年多的時間),進(jìn)化后的醫(yī)生智能體在涵蓋主要呼吸系統(tǒng)疾病的 MedQA 數(shù)據(jù)集子集上達(dá)到了 93.06% 的準(zhǔn)確率。

論文鏈接:
https:///abs/2405.02957

圖片


2.清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT
 
近年來,擴散模型在圖像生成方面表現(xiàn)出了卓越的性能。然而,由于在生成超高分辨率圖像(如 4096*4096)的過程中內(nèi)存會二次增加,生成圖像的分辨率往往被限制在 1024*1024。
 
在這項工作中,來自清華和智譜AI 的研究團(tuán)隊提出了一種單向塊(unidirectional block)注意力機制,其可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷,并處理全局依賴關(guān)系。在此模塊的基礎(chǔ)上,他們采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種無限超分辨率模型,能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣。
 
綜合實驗表明,這一模型在生成超高分辨率圖像方面達(dá)到了機器和人工評估的 SOTA 性能。與常用的 UNet 結(jié)構(gòu)相比,這一模型在生成 4096*4096 圖像時可以節(jié)省 5 倍以上的內(nèi)存。
 
論文鏈接:
https:///abs/2405.04312

圖片


3.具有 3D 理解能力的語言-圖像模型
 
多模態(tài)大型語言模型(MLLMs)在各種 2D 視覺和語言任務(wù)中表現(xiàn)出了驚人的能力。來自德州大學(xué)奧斯汀分校、英偉達(dá)的研究團(tuán)隊將 MLLM 的感知能力擴展進(jìn)了 3D 空間的圖像基準(zhǔn)(ground)和推理。
 
他們首先開發(fā)了一個大規(guī)模的 2D 和 3D 預(yù)訓(xùn)練數(shù)據(jù)集——LV3D,該數(shù)據(jù)集將現(xiàn)有的多個 2D 和 3D 識別數(shù)據(jù)集結(jié)合在一個共同的任務(wù)表述下:作為多輪問題解答;然后,他們提出了一種名為 Cube-LLM 的新型 MLLM,并在 LV3D 上對其進(jìn)行了預(yù)訓(xùn)練。研究表明,純粹的數(shù)據(jù)縮放可以產(chǎn)生強大的 3D 感知能力,而無需特定的 3D 架構(gòu)設(shè)計或訓(xùn)練目標(biāo)。
 
另外,Cube-LLM 具有與 LLM 相似的特性:1)Cube-LLM 可以應(yīng)用思維鏈提示,從 2D 上下文信息中提高 3D 理解能力;2)Cube-LLM 可以遵循復(fù)雜多樣的指令,并適應(yīng)多種輸入和輸出格式;3)Cube-LLM 可接受視覺提示,如專家提供的 2D box 或一組候選 3D box。
 
室外基準(zhǔn)測試表明,Cube-LLM 在 3D 基礎(chǔ)推理 Talk2Car 數(shù)據(jù)集和復(fù)雜駕駛場景推理 DriveLM 數(shù)據(jù)集上的表現(xiàn),明顯優(yōu)于現(xiàn)有基準(zhǔn),分別比 AP-BEV 高出 21.3 分和 17.7 分。此外,Cube-LLM 還在 MLLM 基準(zhǔn)(如用于 2D 基礎(chǔ)推理的 refCOCO)以及視覺問題解答基準(zhǔn)(如用于復(fù)雜推理的 VQAv2、GQA、SQA、POPE 等)中顯示出具有競爭力的結(jié)果。
 
論文鏈接:
https:///abs/2405.03685
項目地址:
https://janghyuncho./Cube-LLM/

圖片

 
4.清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench
 
大型語言模型(LLM)在為生產(chǎn)活動生成代碼方面表現(xiàn)出強大的能力。然而,目前的代碼合成基準(zhǔn),如 HumanEval、MBPP 和 DS-1000,主要面向算法和數(shù)據(jù)科學(xué)的入門任務(wù),不能充分滿足現(xiàn)實世界中普遍存在的編碼挑戰(zhàn)要求。
 
為了填補這一空白,來自清華大學(xué)和智譜AI 的研究團(tuán)隊提出了自然代碼基準(zhǔn)(NaturalCodeBench,簡稱 NCB),這是一個具有挑戰(zhàn)性的代碼基準(zhǔn),旨在反映真實編碼任務(wù)的復(fù)雜性和場景的多樣性。
 
據(jù)介紹,NCB 由 402 個 Python 和 Java 中的高質(zhì)量問題組成,這些問題都是從在線編碼服務(wù)的自然用戶查詢中精心挑選出來的,涵蓋 6 個不同的領(lǐng)域??紤]到為真實世界的查詢創(chuàng)建測試用例異常困難,他們還提出了一個半自動化管道,從而提高測試用例構(gòu)建的效率。與人工解決方案相比,其效率提高了 4 倍多。
 
他們在 39 個 LLM 上進(jìn)行的系統(tǒng)實驗發(fā)現(xiàn),HumanEval 分?jǐn)?shù)接近的模型之間在 NCB 上的性能差距仍然很大,這表明我們對實際代碼合成場景缺乏關(guān)注,或者對 HumanEval 進(jìn)行了過度優(yōu)化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表現(xiàn)也遠(yuǎn)遠(yuǎn)不能令人滿意。
 
論文鏈接:
https:///abs/2405.04520
GitHub 地址:
https://github.com/THUDM/NaturalCodeBench

圖片


5.美團(tuán)提出視頻生成模型 Matten,采用 Mamba-Attention 架構(gòu)
 
在這項工作中,來自美團(tuán)的研究團(tuán)隊提出了一種采用 Mamba-Attention 架構(gòu)、用于視頻生成的潛在擴散模型——Matten。Matten 采用空間-時間注意力進(jìn)行局部視頻內(nèi)容建模,采用雙向 Mamba 進(jìn)行全局視頻內(nèi)容建模,計算成本低。
 
綜合實驗評估表明,在基準(zhǔn)性能方面,Matten 與當(dāng)前基于 Transformer 和 GAN 的模型相比具有很強的競爭力,可獲得更高的 FVD 分?jǐn)?shù)和效率。此外,他們還觀察到所設(shè)計模型的復(fù)雜度與視頻質(zhì)量的改善之間存在直接的正相關(guān)關(guān)系,這表明 Matten 具有出色的可擴展性。
 
論文鏈接:
https:///abs/2405.03025


6.注意力驅(qū)動的免訓(xùn)練擴散模型效率提升
 
擴散模型(DMs)在生成高質(zhì)量和多樣化的圖像方面表現(xiàn)出優(yōu)越的性能。
 
然而,這種卓越的性能以昂貴的架構(gòu)設(shè)計為代價,特別是在領(lǐng)先模型中大量使用了 attention 模塊?,F(xiàn)有工作主要采用再訓(xùn)練流程來提高數(shù)據(jù)挖掘效率。這在計算上是昂貴的,且不太可擴展。
 
為此,來自普林斯頓大學(xué)和 Adobe 的研究團(tuán)隊提出了注意力驅(qū)動的免訓(xùn)練高校擴散模型(AT-EDM)框架,其利用注意力圖來執(zhí)行冗余 Token 的運行時修剪,而不需要任何再訓(xùn)練。具體來說,對于單步去噪修剪,他們開發(fā)了一種新的排序算法—— 通用加權(quán)頁面排序(G-WPR),從而識別冗余的 Token,以及一種基于相似性的方法去恢復(fù)卷積操作的 Token。此外,他們還提出了一種去噪步驟感知的剪枝(DSAP)方法,來調(diào)整不同去噪時間步的剪枝預(yù)算,從而獲得更好的生成質(zhì)量。
 
廣泛的評估表明,AT-EDM 在效率方面優(yōu)于現(xiàn)有技術(shù)(例如,與 Stable Diffusion XL 相比,節(jié)省了 38.8% 的 FLOPs 和高達(dá) 1.53 倍的加速),同時保持與完整模型幾乎相同的 FID 和 CLIP 分?jǐn)?shù)。
 
論文鏈接:
https:///abs/2405.05252
GitHub 地址:
https://atedm./

圖片


7.IBM 推出開源代碼大模型 Granite
 
經(jīng)過代碼訓(xùn)練的大型語言模型(LLM)正在徹底改變軟件開發(fā)過程。為了提高人類程序員的工作效率,越來越多的代碼 LLM 被集成到軟件開發(fā)環(huán)境中,而基于 LLM 的智能體也開始顯示出自主處理復(fù)雜任務(wù)的前景。要充分發(fā)揮代碼 LLM 的潛力,需要具備廣泛的能力,包括代碼生成、修復(fù)錯誤、解釋和維護(hù)資源庫等。
 
在這項工作中,IBM 團(tuán)隊提出了用于代碼生成任務(wù)的純解碼器 Granite 系列代碼模型,這些模型是用 116 種編程語言編寫的代碼訓(xùn)練而成的,由大小從 30 億到 340 億個參數(shù)不等的模型組成,適用于從復(fù)雜的應(yīng)用現(xiàn)代化任務(wù)到設(shè)備內(nèi)存受限用例等各種應(yīng)用。
 
對一整套任務(wù)的評估表明,在現(xiàn)有的開源代碼 LLM 中,Granite 代碼模型的性能始終處于領(lǐng)先水平。另外,Granite 代碼模型系列針對企業(yè)軟件開發(fā)工作流程進(jìn)行了優(yōu)化,在一系列編碼任務(wù)(如代碼生成、修正和解釋)中表現(xiàn)出色。此外,團(tuán)隊已在 Apache 2.0 許可下發(fā)布了所有 Granite 代碼模型,供研究和商業(yè)使用。
 
論文鏈接:
https:///abs/2405.04324
 
 
8.AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE
 
在大型視覺語言模型(LVLM)中減少幻覺仍然是一個未解決的問題。目前的基準(zhǔn)并沒有解決開放式自由回答中的幻覺問題, 即“第一類幻覺”,相反,其關(guān)注的是對非常具體的問題格式做出反應(yīng)的幻覺——通常是關(guān)于特定對象或?qū)傩缘亩囗椷x擇反應(yīng)——即“第二類幻覺”。此外,此類基準(zhǔn)通常需要外部 API 調(diào)用模型,而這些模型可能會發(fā)生變化。
 
在實踐中,來自 AWS 和牛津大學(xué)的研究團(tuán)隊發(fā)現(xiàn),減少第二類幻覺并不會導(dǎo)致第一類幻覺的減少,相反,這兩種形式的幻覺往往互不相關(guān)。為了解決這個問題,他們提出了 THRONE,這是一個基于對象的新型自動框架,用于定量評估 LVLM 自由形式輸出中的第一類幻覺。
 
他們使用公共語言模型來識別 LVLM 反應(yīng)中的幻覺,并計算相關(guān)指標(biāo)。通過使用公共數(shù)據(jù)集對大量最新的 LVLM 進(jìn)行評估,他們發(fā)現(xiàn),現(xiàn)有指標(biāo)的改進(jìn)并不會導(dǎo)致第一類幻覺的減少,而且現(xiàn)有的第一類幻覺測量基準(zhǔn)并不完整。最后,他們提供了一種簡單有效的數(shù)據(jù)增強方法,從而減少第一類和第二類幻覺,并以此作為強有力的基準(zhǔn)。
 
論文鏈接:
https:///abs/2405.05256

圖片
 

9.“文生視頻”新研究:多場景文生視頻的時間對齊字幕
 
文生視頻(T2V)模型可以在文本提示的條件下生成高質(zhì)量的視頻。這些 T2V 模型通常產(chǎn)生單場景視頻片段,描述執(zhí)行特定動作的實體(比如,一只小熊貓爬樹)。然而,生成多場景視頻是非常重要的,因為它們在現(xiàn)實世界中無處不在(比如,一只小熊貓爬上樹,然后睡在樹頂上)。
 
為了從預(yù)訓(xùn)練的 T2V 模型生成多場景視頻,來自加州大學(xué)洛杉磯分校和谷歌的研究團(tuán)隊提出了時間對齊字幕(TALC)框架,增強了 T2V 模型中的文本條件作用機制,從而識別視頻場景和場景描述之間的時間對齊。例如,他們用第一個場景描述(一只小熊貓在爬樹)和第二個場景描述(小熊貓睡在樹頂上)的表示對生成視頻的早期和后期場景的視覺特征進(jìn)行條件約束。T2V 模型可以生成符合多場景文本描述的多場景視頻,并在視覺上保持一致(如實體和背景)。
 
此外,他們使用 TALC 框架用多場景視頻-文本數(shù)據(jù)對預(yù)訓(xùn)練的 T2V 模型進(jìn)行微調(diào)。研究表明,用 TALC 微調(diào)的模型在總分?jǐn)?shù)上比基線方法高出 15.5 分。
 
論文鏈接:
https:///abs/2405.04682
GitHub 地址:
https://talc-mst2v./

圖片


10.StyleMamba:高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型
 
來自帝國理工學(xué)院、芬蘭奧盧理工大學(xué)和戴爾的研究團(tuán)隊提出了一種有效的圖像風(fēng)格遷移框架——StyleMamba,其能夠?qū)⑽谋咎崾痉g為相應(yīng)的視覺風(fēng)格,同時保留原始圖像的內(nèi)容完整性。
 
現(xiàn)有的文本引導(dǎo)樣式化需要數(shù)百次訓(xùn)練迭代,并且需要大量的計算資源。為加快這一過程,他們提出了一種條件狀態(tài)空間模型 StyleMamba,用于有效的文本驅(qū)動圖像風(fēng)格遷移,按順序?qū)D像特征與目標(biāo)文本提示對齊。為了增強文本和圖像之間的局部和全局風(fēng)格一致性,他們提出了掩碼和二階方向損失來優(yōu)化風(fēng)格化方向,將訓(xùn)練迭代次數(shù)顯著減少5次,推理時間顯著減少3次。
 
廣泛的實驗和定性評估證實,與現(xiàn)有的基線相比,所提出方法達(dá)到了 SOTA。
 
論文鏈接:
https:///abs/2405.05027

圖片

|點擊關(guān)注我 ?? 記得標(biāo)星|

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章