清華團(tuán)隊提出“智能體醫(yī)院”:醫(yī)生智能體可實現(xiàn)自我進(jìn)化 清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT 清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench 美團(tuán)提出視頻生成模型 Matten,采用 Mamba-Attention 架構(gòu) 注意力驅(qū)動的免訓(xùn)練擴散模型效率提升 AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE StyleMamba:高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型
掃描下方二維碼,加入「大模型技術(shù)分享群」。或點擊“閱讀原文”,獲取「2024 必讀大模型論文」合集(包括日報、周報、月報,持續(xù)更新中~)。 1.清華團(tuán)隊提出“智能體醫(yī)院”:醫(yī)生智能體可實現(xiàn)自我進(jìn)化在這項工作中,來自清華大學(xué)的研究團(tuán)隊提出了一種名為“智能體醫(yī)院”(Agent Hospital)的模擬醫(yī)院,它可以模擬治療疾病的整個過程。其中,所有病人、護(hù)士和醫(yī)生都是由大型語言模型(LLM)驅(qū)動的自主智能體。該研究的核心目標(biāo)是讓醫(yī)生智能體學(xué)會如何在模擬環(huán)境中治療疾病。為此,研究團(tuán)隊提出了一種名為 MedAgent-Zero 的方法。由于仿真系統(tǒng)可以根據(jù)知識庫和 LLM 模擬疾病的發(fā)生和發(fā)展,醫(yī)生智能體可以不斷從成功和失敗的病例中積累經(jīng)驗。模擬實驗表明,醫(yī)生智能體在各種任務(wù)中的治療效果都在不斷提高。更有趣的是,醫(yī)生智能體在“智能體醫(yī)院”中獲得的知識適用于現(xiàn)實世界的醫(yī)療保健基準(zhǔn)。在治療了約一萬名患者后(現(xiàn)實世界中的醫(yī)生可能需要花費兩年多的時間),進(jìn)化后的醫(yī)生智能體在涵蓋主要呼吸系統(tǒng)疾病的 MedQA 數(shù)據(jù)集子集上達(dá)到了 93.06% 的準(zhǔn)確率。2.清華、智譜AI 團(tuán)隊推出無限超分辨率模型 Inf-DiT近年來,擴散模型在圖像生成方面表現(xiàn)出了卓越的性能。然而,由于在生成超高分辨率圖像(如 4096*4096)的過程中內(nèi)存會二次增加,生成圖像的分辨率往往被限制在 1024*1024。在這項工作中,來自清華和智譜AI 的研究團(tuán)隊提出了一種單向塊(unidirectional block)注意力機制,其可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷,并處理全局依賴關(guān)系。在此模塊的基礎(chǔ)上,他們采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種無限超分辨率模型,能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣。綜合實驗表明,這一模型在生成超高分辨率圖像方面達(dá)到了機器和人工評估的 SOTA 性能。與常用的 UNet 結(jié)構(gòu)相比,這一模型在生成 4096*4096 圖像時可以節(jié)省 5 倍以上的內(nèi)存。多模態(tài)大型語言模型(MLLMs)在各種 2D 視覺和語言任務(wù)中表現(xiàn)出了驚人的能力。來自德州大學(xué)奧斯汀分校、英偉達(dá)的研究團(tuán)隊將 MLLM 的感知能力擴展進(jìn)了 3D 空間的圖像基準(zhǔn)(ground)和推理。他們首先開發(fā)了一個大規(guī)模的 2D 和 3D 預(yù)訓(xùn)練數(shù)據(jù)集——LV3D,該數(shù)據(jù)集將現(xiàn)有的多個 2D 和 3D 識別數(shù)據(jù)集結(jié)合在一個共同的任務(wù)表述下:作為多輪問題解答;然后,他們提出了一種名為 Cube-LLM 的新型 MLLM,并在 LV3D 上對其進(jìn)行了預(yù)訓(xùn)練。研究表明,純粹的數(shù)據(jù)縮放可以產(chǎn)生強大的 3D 感知能力,而無需特定的 3D 架構(gòu)設(shè)計或訓(xùn)練目標(biāo)。另外,Cube-LLM 具有與 LLM 相似的特性:1)Cube-LLM 可以應(yīng)用思維鏈提示,從 2D 上下文信息中提高 3D 理解能力;2)Cube-LLM 可以遵循復(fù)雜多樣的指令,并適應(yīng)多種輸入和輸出格式;3)Cube-LLM 可接受視覺提示,如專家提供的 2D box 或一組候選 3D box。室外基準(zhǔn)測試表明,Cube-LLM 在 3D 基礎(chǔ)推理 Talk2Car 數(shù)據(jù)集和復(fù)雜駕駛場景推理 DriveLM 數(shù)據(jù)集上的表現(xiàn),明顯優(yōu)于現(xiàn)有基準(zhǔn),分別比 AP-BEV 高出 21.3 分和 17.7 分。此外,Cube-LLM 還在 MLLM 基準(zhǔn)(如用于 2D 基礎(chǔ)推理的 refCOCO)以及視覺問題解答基準(zhǔn)(如用于復(fù)雜推理的 VQAv2、GQA、SQA、POPE 等)中顯示出具有競爭力的結(jié)果。https://janghyuncho./Cube-LLM/4.清華、智譜AI 團(tuán)隊推出代碼評測基準(zhǔn) NaturalCodeBench大型語言模型(LLM)在為生產(chǎn)活動生成代碼方面表現(xiàn)出強大的能力。然而,目前的代碼合成基準(zhǔn),如 HumanEval、MBPP 和 DS-1000,主要面向算法和數(shù)據(jù)科學(xué)的入門任務(wù),不能充分滿足現(xiàn)實世界中普遍存在的編碼挑戰(zhàn)要求。為了填補這一空白,來自清華大學(xué)和智譜AI 的研究團(tuán)隊提出了自然代碼基準(zhǔn)(NaturalCodeBench,簡稱 NCB),這是一個具有挑戰(zhàn)性的代碼基準(zhǔn),旨在反映真實編碼任務(wù)的復(fù)雜性和場景的多樣性。據(jù)介紹,NCB 由 402 個 Python 和 Java 中的高質(zhì)量問題組成,這些問題都是從在線編碼服務(wù)的自然用戶查詢中精心挑選出來的,涵蓋 6 個不同的領(lǐng)域??紤]到為真實世界的查詢創(chuàng)建測試用例異常困難,他們還提出了一個半自動化管道,從而提高測試用例構(gòu)建的效率。與人工解決方案相比,其效率提高了 4 倍多。他們在 39 個 LLM 上進(jìn)行的系統(tǒng)實驗發(fā)現(xiàn),HumanEval 分?jǐn)?shù)接近的模型之間在 NCB 上的性能差距仍然很大,這表明我們對實際代碼合成場景缺乏關(guān)注,或者對 HumanEval 進(jìn)行了過度優(yōu)化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表現(xiàn)也遠(yuǎn)遠(yuǎn)不能令人滿意。https://github.com/THUDM/NaturalCodeBench5.美團(tuán)提出視頻生成模型 Matten,采用 Mamba-Attention 架構(gòu)在這項工作中,來自美團(tuán)的研究團(tuán)隊提出了一種采用 Mamba-Attention 架構(gòu)、用于視頻生成的潛在擴散模型——Matten。Matten 采用空間-時間注意力進(jìn)行局部視頻內(nèi)容建模,采用雙向 Mamba 進(jìn)行全局視頻內(nèi)容建模,計算成本低。綜合實驗評估表明,在基準(zhǔn)性能方面,Matten 與當(dāng)前基于 Transformer 和 GAN 的模型相比具有很強的競爭力,可獲得更高的 FVD 分?jǐn)?shù)和效率。此外,他們還觀察到所設(shè)計模型的復(fù)雜度與視頻質(zhì)量的改善之間存在直接的正相關(guān)關(guān)系,這表明 Matten 具有出色的可擴展性。6.注意力驅(qū)動的免訓(xùn)練擴散模型效率提升擴散模型(DMs)在生成高質(zhì)量和多樣化的圖像方面表現(xiàn)出優(yōu)越的性能。然而,這種卓越的性能以昂貴的架構(gòu)設(shè)計為代價,特別是在領(lǐng)先模型中大量使用了 attention 模塊?,F(xiàn)有工作主要采用再訓(xùn)練流程來提高數(shù)據(jù)挖掘效率。這在計算上是昂貴的,且不太可擴展。為此,來自普林斯頓大學(xué)和 Adobe 的研究團(tuán)隊提出了注意力驅(qū)動的免訓(xùn)練高校擴散模型(AT-EDM)框架,其利用注意力圖來執(zhí)行冗余 Token 的運行時修剪,而不需要任何再訓(xùn)練。具體來說,對于單步去噪修剪,他們開發(fā)了一種新的排序算法—— 通用加權(quán)頁面排序(G-WPR),從而識別冗余的 Token,以及一種基于相似性的方法去恢復(fù)卷積操作的 Token。此外,他們還提出了一種去噪步驟感知的剪枝(DSAP)方法,來調(diào)整不同去噪時間步的剪枝預(yù)算,從而獲得更好的生成質(zhì)量。廣泛的評估表明,AT-EDM 在效率方面優(yōu)于現(xiàn)有技術(shù)(例如,與 Stable Diffusion XL 相比,節(jié)省了 38.8% 的 FLOPs 和高達(dá) 1.53 倍的加速),同時保持與完整模型幾乎相同的 FID 和 CLIP 分?jǐn)?shù)。經(jīng)過代碼訓(xùn)練的大型語言模型(LLM)正在徹底改變軟件開發(fā)過程。為了提高人類程序員的工作效率,越來越多的代碼 LLM 被集成到軟件開發(fā)環(huán)境中,而基于 LLM 的智能體也開始顯示出自主處理復(fù)雜任務(wù)的前景。要充分發(fā)揮代碼 LLM 的潛力,需要具備廣泛的能力,包括代碼生成、修復(fù)錯誤、解釋和維護(hù)資源庫等。在這項工作中,IBM 團(tuán)隊提出了用于代碼生成任務(wù)的純解碼器 Granite 系列代碼模型,這些模型是用 116 種編程語言編寫的代碼訓(xùn)練而成的,由大小從 30 億到 340 億個參數(shù)不等的模型組成,適用于從復(fù)雜的應(yīng)用現(xiàn)代化任務(wù)到設(shè)備內(nèi)存受限用例等各種應(yīng)用。對一整套任務(wù)的評估表明,在現(xiàn)有的開源代碼 LLM 中,Granite 代碼模型的性能始終處于領(lǐng)先水平。另外,Granite 代碼模型系列針對企業(yè)軟件開發(fā)工作流程進(jìn)行了優(yōu)化,在一系列編碼任務(wù)(如代碼生成、修正和解釋)中表現(xiàn)出色。此外,團(tuán)隊已在 Apache 2.0 許可下發(fā)布了所有 Granite 代碼模型,供研究和商業(yè)使用。8.AWS 團(tuán)隊提出基于目標(biāo)的幻覺基準(zhǔn) THRONE在大型視覺語言模型(LVLM)中減少幻覺仍然是一個未解決的問題。目前的基準(zhǔn)并沒有解決開放式自由回答中的幻覺問題, 即“第一類幻覺”,相反,其關(guān)注的是對非常具體的問題格式做出反應(yīng)的幻覺——通常是關(guān)于特定對象或?qū)傩缘亩囗椷x擇反應(yīng)——即“第二類幻覺”。此外,此類基準(zhǔn)通常需要外部 API 調(diào)用模型,而這些模型可能會發(fā)生變化。在實踐中,來自 AWS 和牛津大學(xué)的研究團(tuán)隊發(fā)現(xiàn),減少第二類幻覺并不會導(dǎo)致第一類幻覺的減少,相反,這兩種形式的幻覺往往互不相關(guān)。為了解決這個問題,他們提出了 THRONE,這是一個基于對象的新型自動框架,用于定量評估 LVLM 自由形式輸出中的第一類幻覺。他們使用公共語言模型來識別 LVLM 反應(yīng)中的幻覺,并計算相關(guān)指標(biāo)。通過使用公共數(shù)據(jù)集對大量最新的 LVLM 進(jìn)行評估,他們發(fā)現(xiàn),現(xiàn)有指標(biāo)的改進(jìn)并不會導(dǎo)致第一類幻覺的減少,而且現(xiàn)有的第一類幻覺測量基準(zhǔn)并不完整。最后,他們提供了一種簡單有效的數(shù)據(jù)增強方法,從而減少第一類和第二類幻覺,并以此作為強有力的基準(zhǔn)。9.“文生視頻”新研究:多場景文生視頻的時間對齊字幕文生視頻(T2V)模型可以在文本提示的條件下生成高質(zhì)量的視頻。這些 T2V 模型通常產(chǎn)生單場景視頻片段,描述執(zhí)行特定動作的實體(比如,一只小熊貓爬樹)。然而,生成多場景視頻是非常重要的,因為它們在現(xiàn)實世界中無處不在(比如,一只小熊貓爬上樹,然后睡在樹頂上)。為了從預(yù)訓(xùn)練的 T2V 模型生成多場景視頻,來自加州大學(xué)洛杉磯分校和谷歌的研究團(tuán)隊提出了時間對齊字幕(TALC)框架,增強了 T2V 模型中的文本條件作用機制,從而識別視頻場景和場景描述之間的時間對齊。例如,他們用第一個場景描述(一只小熊貓在爬樹)和第二個場景描述(小熊貓睡在樹頂上)的表示對生成視頻的早期和后期場景的視覺特征進(jìn)行條件約束。T2V 模型可以生成符合多場景文本描述的多場景視頻,并在視覺上保持一致(如實體和背景)。此外,他們使用 TALC 框架用多場景視頻-文本數(shù)據(jù)對預(yù)訓(xùn)練的 T2V 模型進(jìn)行微調(diào)。研究表明,用 TALC 微調(diào)的模型在總分?jǐn)?shù)上比基線方法高出 15.5 分。10.StyleMamba:高效文本驅(qū)動圖像風(fēng)格遷移的狀態(tài)空間模型來自帝國理工學(xué)院、芬蘭奧盧理工大學(xué)和戴爾的研究團(tuán)隊提出了一種有效的圖像風(fēng)格遷移框架——StyleMamba,其能夠?qū)⑽谋咎崾痉g為相應(yīng)的視覺風(fēng)格,同時保留原始圖像的內(nèi)容完整性。現(xiàn)有的文本引導(dǎo)樣式化需要數(shù)百次訓(xùn)練迭代,并且需要大量的計算資源。為加快這一過程,他們提出了一種條件狀態(tài)空間模型 StyleMamba,用于有效的文本驅(qū)動圖像風(fēng)格遷移,按順序?qū)D像特征與目標(biāo)文本提示對齊。為了增強文本和圖像之間的局部和全局風(fēng)格一致性,他們提出了掩碼和二階方向損失來優(yōu)化風(fēng)格化方向,將訓(xùn)練迭代次數(shù)顯著減少5次,推理時間顯著減少3次。廣泛的實驗和定性評估證實,與現(xiàn)有的基線相比,所提出方法達(dá)到了 SOTA。|點擊關(guān)注我 ?? 記得標(biāo)星|
|