电竞比分网-中国电竞赛事及体育赛事平台

分享

14個機(jī)構(gòu)63位學(xué)者合作 AI for Science 重磅綜述:用于量子、原子和連續(xù)體系科學(xué)的人工智能

 醫(yī)學(xué)abeycd 2023-08-06 發(fā)布于湖北

Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems

作者:Xuan Zhang, Limei Wang, Jacob Helwig, Youzhi Luo, Cong Fu, Yaochen Xie, Meng Liu, Yuchao Lin, Zhao Xu, Keqiang Yan, Keir Adams, Maurice Weiler, Xiner Li, Tianfan Fu, Yucheng Wang, Haiyang Yu, YuQing Xie, Xiang Fu, Alex Strasser, Shenglong Xu, Yi Liu, Yuanqi Du, Alexandra Saxton, Hongyi Ling, Hannah Lawrence, Hannes St?rk, Shurui Gui, Carl Edwards, Nicholas Gao, Adriana Ladera, Tailin Wu, Elyssa F. Hofgard, Aria Mansouri Tehrani, Rui Wang, Ameya Daigavane, Montgomery Bohde, Jerry Kurtin, Qian Huang, Tuong Phung, Minkai Xu, Chaitanya K. Joshi, Simon V. Mathis, Kamyar Azizzadenesheli, Ada Fang, Alán Aspuru-Guzik, Erik Bekkers, Michael Bronstein, Marinka Zitnik, Anima Anandkumar, Stefano Ermon, Pietro Liò, Rose Yu, Stephan Günnemann, Jure Leskovec, Heng Ji, Jimeng Sun, Regina Barzilay, Tommi Jaakkola, Connor W. Coley, Xiaoning Qian, Xiaofeng Qian, Tess Smidt, Shuiwang Ji

arXiv:2023/07/17

摘要:Advances in artificial intelligence (AI) are fueling a new paradigm of discoveries in natural sciences. Today, AI has started to advance natural sciences by improving, accelerating, and enabling our understanding of natural phenomena at a wide range of spatial and temporal scales, giving rise to a new area of research known as AI for science (AI4Science). Being an emerging research paradigm, AI4Science is unique in that it is an enormous and highly interdisciplinary area. Thus, a unified and technical treatment of this field is needed yet challenging. This paper aims to provide a technically thorough account of a subarea of AI4Science; namely, AI for quantum, atomistic, and continuum systems. These areas aim at understanding the physical world from the subatomic (wavefunctions and electron density), atomic (molecules, proteins, materials, and interactions), to macro (fluids, climate, and subsurface) scales and form an important subarea of AI4Science. A unique advantage of focusing on these areas is that they largely share a common set of challenges, thereby allowing a unified and foundational treatment. A key common challenge is how to capture physics first principles, especially symmetries, in natural systems by deep learning methods. We provide an in-depth yet intuitive account of techniques to achieve equivariance to symmetry transformations. We also discuss other common technical challenges, including explainability, out-of-distribution generalization, knowledge transfer with foundation and large language models, and uncertainty quantification. To facilitate learning and education, we provide categorized lists of resources that we found to be useful. We strive to be thorough and unified and hope this initial effort may trigger more community interests and efforts to further advance AI4Science.


人工智能(AI)的進(jìn)步正在推動自然科學(xué)發(fā)現(xiàn)的新范式。今天,人工智能已經(jīng)開始通過改進(jìn)、加速和使我們能夠在廣泛的空間和時間尺度上理解自然現(xiàn)象來推進(jìn)自然科學(xué),從而產(chǎn)生了一個被稱為人工智能科學(xué)(AI4Science)的新研究領(lǐng)域。作為一種新興的研究范式,AI4科學(xué)的獨(dú)特之處在于它是一個巨大的、高度跨學(xué)科的領(lǐng)域。因此,需要對這一領(lǐng)域進(jìn)行統(tǒng)一的技術(shù)處理,但這具有挑戰(zhàn)性。本文旨在對AI4科學(xué)的一個子領(lǐng)域進(jìn)行技術(shù)上的全面介紹;即用于量子、原子和連續(xù)體系統(tǒng)的人工智能。這些領(lǐng)域旨在了解從亞原子(波函數(shù)和電子密度)、原子(分子、蛋白質(zhì)、材料和相互作用)到宏觀(流體、氣候和地下)尺度的物理世界,并形成AI4科學(xué)的一個重要子區(qū)域。專注于這些領(lǐng)域的一個獨(dú)特優(yōu)勢是,它們在很大程度上共享一系列共同的挑戰(zhàn),從而實(shí)現(xiàn)統(tǒng)一和基礎(chǔ)的治療。一個關(guān)鍵的共同挑戰(zhàn)是如何通過深度學(xué)習(xí)方法捕捉自然系統(tǒng)中的物理第一原理,尤其是對稱性。我們對實(shí)現(xiàn)等變對稱變換的技術(shù)進(jìn)行了深入而直觀的描述。我們還討論了其他常見的技術(shù)挑戰(zhàn),包括可解釋性、分布外泛化、基于基礎(chǔ)和大型語言模型的知識轉(zhuǎn)移以及不確定性量化。為了促進(jìn)學(xué)習(xí)和教育,我們提供了我們認(rèn)為有用的資源分類列表。我們努力做到徹底和統(tǒng)一,并希望這一初步努力能夠引發(fā)更多的社區(qū)利益和努力,進(jìn)一步推進(jìn)AI4Science。


圖片來源:Pixabay


近日,來自 MIT、Stanford、UIUC、NVIDIA 等14個機(jī)構(gòu)的63位作者合作撰寫了一篇263頁的 AI for Science 重磅綜述,詳細(xì)闡述了 AI 在亞原子(波函數(shù)、電子密度),原子(分子、蛋白質(zhì)、材料、相互作用),以及宏觀系統(tǒng)(流體、氣候、地下)等不同時空尺度的科學(xué)領(lǐng)域應(yīng)用的關(guān)鍵挑戰(zhàn)、學(xué)科前沿和開放問題。文章圍繞對稱性進(jìn)行了深入而直觀的討論,同時也對可解釋性、分布外泛化、大語言模型和不確定性進(jìn)行了探討。此外,研究者還創(chuàng)建網(wǎng)站(https://air4.science/)并繪制 AI for Science 的領(lǐng)域地圖,提供了分類資源列表,希望能促進(jìn)領(lǐng)域交流與合作。

集智俱樂部「AI+Science」讀書會發(fā)起人、西湖大學(xué)工學(xué)院AI方向助理教授吳泰霖參與撰寫了這篇綜述。今天的文章是對綜述文章的簡要介紹(主要基于原論文 Introduction 部分和各章節(jié) Overview),感興趣的朋友可以進(jìn)一步閱讀原論文,并加入 AI+Science 社區(qū)深入交流!

研究領(lǐng)域:AI for Science,AI 可解釋性,分布外泛化,大語言模型,對稱性與等變性

梁金 | 編譯

圖1. AI for science 研究領(lǐng)域概覽。本文主要關(guān)注 AI for 量子力學(xué)、密度泛函理論(DFT)、小分子、蛋白質(zhì)、材料、分子相互作用和偏微分方程(PDE)。最外層圓圈中直觀地描繪了這些不同的領(lǐng)域,它們按物理世界建模的空間和時間尺度排列為:量子、原子和連續(xù)體系。最內(nèi)部的圓圈中顯示了這些研究領(lǐng)域中存在一系列常見的技術(shù)挑戰(zhàn),例如對稱性、可解釋性和分布外泛化等。


數(shù)十年的人工智能(AI)研究隨著以深度學(xué)習(xí)為標(biāo)志的神經(jīng)網(wǎng)絡(luò)的復(fù)興達(dá)到頂峰。自2012年的 AlexNet 以來,十多年的深入研究使得深度學(xué)習(xí)領(lǐng)域取得大量突破,包括 ResNet、擴(kuò)散模型和基于分?jǐn)?shù)的模型、注意力、transformer,以及最近的大語言模型(LLM)和 ChatGPT 等。這些發(fā)展使得深度模型的性能不斷提高。深度學(xué)習(xí)與不斷增長的計(jì)算能力和大規(guī)模數(shù)據(jù)集結(jié)合,正成為計(jì)算機(jī)視覺和自然語言處理等各個領(lǐng)域的主導(dǎo)方法。

在這些進(jìn)步的推動下,AI 改進(jìn)、加速和促進(jìn)我們理解廣泛的空間和時間尺度上的自然現(xiàn)象,推動自然科學(xué)的發(fā)展,從而形成了 AI for science 這一新的研究領(lǐng)域。AI for science 為科學(xué)發(fā)現(xiàn)的新范式打開了一扇門,代表了跨學(xué)科研究和創(chuàng)新的一個最令人興奮的領(lǐng)域。(參看吳泰霖在讀書會的分享:《如何發(fā)現(xiàn) AI+Science 中的下一個 AlphaFold 和 ChatGPT?》)

這篇論文對研究者過去多年持續(xù)探索的 AI for science 的研究領(lǐng)域進(jìn)行了綜述,根據(jù)系統(tǒng)所在的物理世界的空間和時間尺度,來組織不同的 AI for science 領(lǐng)域。這項(xiàng)工作提供了一個全面的分類體系,以對稱性、等變性和群論這些數(shù)學(xué)和物理原理為基礎(chǔ),深入探討了七個具體的科學(xué)領(lǐng)域,并討論了多個領(lǐng)域存在的共同技術(shù)挑戰(zhàn)。這使得對整個 AI for science 領(lǐng)域進(jìn)行全面而有結(jié)構(gòu)的探索成為可能。
1. AI for Science 的科學(xué)領(lǐng)域

本文在連續(xù)的空間和時間尺度中探索 AI 和各個科學(xué)學(xué)科的交叉點(diǎn)。這個框架容納了各種各樣的領(lǐng)域和問題,并通過它們獨(dú)特的對稱性和共同技術(shù)挑戰(zhàn)統(tǒng)一起來。對稱性是自然科學(xué)的結(jié)構(gòu)所固有的,受數(shù)學(xué)和物理定律支配,在各個科學(xué)領(lǐng)域的許多模式中都有體現(xiàn)。這種跨學(xué)科視角為我們提供了一個新透鏡,透過它我們可以用 AI 方法解決和研究復(fù)雜的科學(xué)問題。

圖2. 科學(xué)領(lǐng)域的時間和空間尺度。量子物理的空間尺度通常在原子和亞原子級別(10-12~10-9米);密度泛函理論(DFT)處理分子中的多體電子相互作用,尺度范圍為 10-10~10-8 米;分子動力學(xué)模擬在更大的尺度上運(yùn)行(10-9~10-6 米);偏微分方程(PDE)被用于研究連續(xù)介質(zhì)系統(tǒng)的行為,尺度范圍從流體動力學(xué)中的微米到氣候動力學(xué)中的千米(10-6~103米)。本文將這些領(lǐng)域聚類為量子、原子和連續(xù)介質(zhì)體系。


量子尺度

量子力學(xué)研究最小長度尺度上的物理現(xiàn)象,使用波函數(shù)描述量子系統(tǒng)的完整動力學(xué)。而波函數(shù)通過求解薛定諤方程得到,其中的計(jì)算具有指數(shù)復(fù)雜度。本文提供了技術(shù)綜述,介紹如何設(shè)計(jì)先進(jìn)的深度學(xué)習(xí)方法來有效地學(xué)習(xí)神經(jīng)波函數(shù),探討量子多體問題的求解,包括:學(xué)習(xí)量子自旋系統(tǒng)基態(tài),和學(xué)習(xí)多電子系統(tǒng)基態(tài)。

圖3. 變分蒙特卡洛(VMC)的流程。神經(jīng)量子態(tài)以自旋構(gòu)型或電子位置作為輸入,輸出波函數(shù)值。在VMC中,根據(jù)波函數(shù)確定的概率分布,使用馬爾可夫鏈蒙特卡洛(MCMC)采樣自旋構(gòu)型或電子位置;然后根據(jù)這些采樣計(jì)算能量,并通過能量梯度更新神經(jīng)量子態(tài)。


密度泛函理論(Density Functional Theory,DFT)和從頭計(jì)算量子化學(xué)(ab initio quantum chemistry)方法是在實(shí)踐中廣泛應(yīng)用的第一性原理方法,用于計(jì)算分子和材料的電子結(jié)構(gòu)和物理性質(zhì)。然而,這些方法在計(jì)算上仍然昂貴,限制了在小型系統(tǒng)(約1000個原子)中的使用。本文介紹了用于準(zhǔn)確預(yù)測量子張量的深度學(xué)習(xí)方法,這反過來可用于推導(dǎo)許多其他物理和化學(xué)性質(zhì),包括分子和固體的電子、機(jī)械、光學(xué)、磁性和催化性質(zhì);此外綜述了機(jī)器學(xué)習(xí)方法用于密度泛函學(xué)習(xí)的最新進(jìn)展。

圖4. DFT 計(jì)算和深度學(xué)習(xí)方法獲取哈密頓矩陣的流程。DFT 計(jì)算使用與分子及其坐標(biāo)相關(guān)的預(yù)定義原子軌道基底,通過在自洽場(SCF)循環(huán)中迭代優(yōu)化哈密頓矩陣,直到達(dá)到總能量極小值/最小值的收斂。深度學(xué)習(xí)方法直接使用量子張量網(wǎng)絡(luò)預(yù)測最終的哈密頓矩陣,以原子類型和坐標(biāo)作為輸入,消除了迭代優(yōu)化過程,從而加速了 DFT 計(jì)算。


原子尺度

小分子,也被稱為微分子,通常有幾十到幾百個原子,相對于蛋白質(zhì)、核酸等具有復(fù)雜結(jié)構(gòu)的大分子而言,在許多化學(xué)和生物過程中起著重要的調(diào)節(jié)和信號作用。例如,90% 獲批準(zhǔn)的藥物都是小分子,它們可以與目標(biāo)大分子(如蛋白質(zhì))相互作用,改變靶標(biāo)的活性或功能。將機(jī)器學(xué)習(xí)方法用于小分子學(xué)習(xí),可以為分子預(yù)測和生成任務(wù)開發(fā)更準(zhǔn)確、有效的方法。本文深入介紹了分子學(xué)習(xí)的幾個關(guān)鍵任務(wù),包括:分子表征學(xué)習(xí)、分子構(gòu)象生成、從頭生成分子、分子動力學(xué)模擬,以及立體異構(gòu)和構(gòu)象靈活性的表征學(xué)習(xí)。

《深度學(xué)習(xí)與分子學(xué)習(xí)結(jié)合:從拓?fù)洹缀魏臀谋窘嵌冗M(jìn)行解析》

參看“AI+Science 讀書會”中付襄介紹分子動力學(xué)模擬的內(nèi)容:
AI for 科學(xué)模擬:分子動力學(xué)與分子模擬
https://pattern./study_group_issue/484

圖5. 現(xiàn)有的分子表征學(xué)習(xí)方法概述。可以根據(jù)特征的張量階(tensor order,指特征的維度)和 GNN 層的體階(body order,指 GNN 層的輸入和輸出維度)對現(xiàn)有方法進(jìn)行分類,這是用于構(gòu)建強(qiáng)大的三維 GNN的兩個關(guān)鍵設(shè)計(jì)選擇。


蛋白質(zhì)是由一條或多條氨基酸鏈組成的大分子。人們普遍認(rèn)為,氨基酸序列決定蛋白質(zhì)結(jié)構(gòu),而蛋白質(zhì)結(jié)構(gòu)又決定蛋白質(zhì)功能。蛋白質(zhì)承擔(dān)著大部分生物功能,包括結(jié)構(gòu)、催化、生殖、代謝和運(yùn)輸?shù)?。最近,機(jī)器學(xué)習(xí)方法在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面取得了重要進(jìn)展,而圖神經(jīng)網(wǎng)絡(luò)、擴(kuò)散模型、三維幾何模型等機(jī)器學(xué)習(xí)方法則加速了新蛋白質(zhì)的發(fā)現(xiàn)。這項(xiàng)工作綜述了AI 用于蛋白質(zhì)科學(xué)的三個主題:蛋白質(zhì)結(jié)構(gòu)預(yù)測,蛋白質(zhì)表征學(xué)習(xí),蛋白質(zhì)骨架生成。

圖6.(上左)蛋白質(zhì)結(jié)構(gòu)預(yù)測算法總結(jié)。(上右)蛋白質(zhì)表征學(xué)習(xí)。(下)擴(kuò)散模型用于蛋白質(zhì)生成。


材料科學(xué)研究材料的加工、結(jié)構(gòu)、性質(zhì)和性能之間的關(guān)系。從原子尺度到微觀和連續(xù)尺度,材料的內(nèi)在結(jié)構(gòu)通過與外界刺激/環(huán)境的相互作用,決定其量子、電子、催化、機(jī)械、光學(xué)、磁性和其他性質(zhì)。最近,機(jī)器學(xué)習(xí)方法已經(jīng)被開發(fā)用于預(yù)測晶體材料的性質(zhì)并設(shè)計(jì)新穎的晶體結(jié)構(gòu)。本文對晶體材料的性質(zhì)預(yù)測和結(jié)構(gòu)生成做了技術(shù)綜述,包括兩個基礎(chǔ)任務(wù):材料表征學(xué)習(xí)材料生成問題;和三個進(jìn)階主題:有序晶體材料表征、無序晶體材料表征和聲子計(jì)算。

圖7. 材料表征學(xué)習(xí)過程。首先非晶態(tài)材料轉(zhuǎn)化為晶體圖表征,隨后作為晶體圖消息傳遞神經(jīng)網(wǎng)絡(luò)的輸入;然后模型被訓(xùn)練以準(zhǔn)確預(yù)測晶體的性質(zhì)。


分子相互作用研究分子如何相互作用以執(zhí)行許多物理和生物功能。機(jī)器學(xué)習(xí)的最新進(jìn)展激發(fā)了對各種分子相互作用的建模,例如配體-受體相互作用、分子-材料相互作用。本文對這些進(jìn)展進(jìn)行了深入和全面的回顧,重點(diǎn)關(guān)注小分子、蛋白質(zhì)或材料的相互作用。

圖8. 分子相互作用研究概覽。對于分子-蛋白質(zhì)相互作用、分子-材料相互作用,將已有任務(wù)分為預(yù)測任務(wù)和生成任務(wù)。


連續(xù)體系

AI for 求解偏微分方程

連續(xù)介質(zhì)力學(xué)(Continuum Mechanics)用偏微分方程(PDE)對宏觀尺度上隨時間和空間演化的物理過程進(jìn)行建模,包括流體流動、熱傳導(dǎo)和電磁波等。然而,使用傳統(tǒng)求解方法解決偏微分方程存在一些限制,包括效率低、難以進(jìn)行分布外泛化和多分辨率分析。本文綜述了近期用于解決這些限制的代理模型的深度學(xué)習(xí)方法,包括前向問題以及逆向問題和逆向設(shè)計(jì)。

圖9. (左)多尺度動力學(xué)。許多系統(tǒng)展示出從局部到全局尺度的相互作用部分的動力學(xué)。比如湍流流動具有一系列衰減到最小尺度的層級渦旋。構(gòu)建具有多尺度處理機(jī)制的機(jī)器學(xué)習(xí)模型對于高保真度模擬至關(guān)重要。這些機(jī)制在每個尺度上聚合信息,以更新每個格點(diǎn)的潛在表征。這里是一個按順序在每個尺度上執(zhí)行聚合和更新機(jī)制的可視化。(右)前向問題、逆向問題和逆向設(shè)計(jì)的說明和比較。

2. AI for Science 的技術(shù)挑戰(zhàn)


除了各個科學(xué)領(lǐng)域特有的挑戰(zhàn),AI for science 的多個領(lǐng)域還存在一些共同的技術(shù)挑戰(zhàn)。本文提出了四個常見的技術(shù)挑戰(zhàn):分布外泛化,可解釋性,基于自監(jiān)督學(xué)習(xí)的基礎(chǔ)模型,和不確定性量化。AI 和機(jī)器學(xué)習(xí)領(lǐng)域早已認(rèn)識到這些挑戰(zhàn),但在 AI for science 背景下,由于數(shù)據(jù)和任務(wù)的獨(dú)特特點(diǎn),這些挑戰(zhàn)變得更加重要。

可解釋性

科學(xué)的目標(biāo)是理解物理世界的規(guī)律。AI for science 的目標(biāo)是(1)設(shè)計(jì)能夠準(zhǔn)確建模物理世界的模型,以及(2)解釋模型以驗(yàn)證或發(fā)現(xiàn)物理規(guī)律。因此,可解釋性對于 AI for science 至關(guān)重要。

例如,幾何深度學(xué)習(xí)(Geometric deep learning,GDL)模型在量子、分子、材料和蛋白質(zhì)科學(xué)等領(lǐng)域展現(xiàn)出巨大潛力。然而大多數(shù)幾何深度學(xué)習(xí)模型缺乏可解釋性,通常被視為黑盒,為了評估模型結(jié)果的科學(xué)合理性,實(shí)現(xiàn)可解釋性非常重要。本文探討了將可解釋人工智能(explainable artificial intelligence,XAI)與模型相結(jié)合以提高可解釋性。XAI 旨在追蹤模型的輸入如何決定輸出,來增加預(yù)測的可信度;還可以測試模型預(yù)測是否符合物理定律,從而有助于提高現(xiàn)有幾何深度學(xué)習(xí)模型的質(zhì)量。對模型的精確解釋技術(shù)可以為領(lǐng)域?qū)<姨峁δP蛯W(xué)習(xí)到的底層機(jī)制的深入洞察,幫助從模型中獲得知識可以指導(dǎo)未來的研究方向。

關(guān)于如何提高 AI 可解釋性,參看劉子鳴博士關(guān)于物理啟發(fā)的機(jī)器學(xué)習(xí)理論的介紹:《探索“AI 大統(tǒng)一理論”:科學(xué)啟發(fā)的機(jī)器學(xué)習(xí)理論》

參看“圖神經(jīng)網(wǎng)絡(luò)讀書會”黃文炳老師關(guān)于幾何深度學(xué)習(xí)的介紹

《幾何深度學(xué)習(xí):讓物理世界擁有AI》


分布外(OOD)泛化和因果

傳統(tǒng)的機(jī)器學(xué)習(xí)方法假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)遵循相同的分布,然而在現(xiàn)實(shí)中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間可能存在不同的分布偏移,這就需要識別能夠進(jìn)行分布外泛化的因果關(guān)系。這個問題與多個領(lǐng)域都有關(guān)聯(lián),包括遷移學(xué)習(xí)、領(lǐng)域適應(yīng)、領(lǐng)域泛化、因果、不變學(xué)習(xí)等。分布外泛化對于科學(xué)模擬尤為重要,因?yàn)檫@樣可以避免為每個不同的設(shè)置生成訓(xùn)練數(shù)據(jù),此外也可以提高科學(xué)發(fā)現(xiàn)模型的任務(wù)表現(xiàn)和泛化能力。

圖10. AI for science 領(lǐng)域的分布外泛化問題??茖W(xué)領(lǐng)域的分布外泛化問題普遍存在。在分子科學(xué)中,不同的分子大小和骨架是分布偏移的主要來源。在蛋白質(zhì)科學(xué)中,三維蛋白質(zhì)結(jié)構(gòu)的復(fù)雜性,以及蛋白質(zhì)構(gòu)成和折疊的潛在變化的廣泛性,使得泛化到不同分布成為艱巨的挑戰(zhàn)。對于偏微分方程,在時間演化建模中從高粘度泛化到低粘度是一項(xiàng)困難的任務(wù),因?yàn)榈驼扯葧?dǎo)致更多的湍流流動,產(chǎn)生更多的混沌動力學(xué),讓建模充滿挑戰(zhàn)。


基礎(chǔ)模型和大語言模型

深度模型的監(jiān)督學(xué)習(xí)通常需要大量標(biāo)記數(shù)據(jù),然而對于科學(xué)發(fā)現(xiàn),獲取標(biāo)記數(shù)據(jù)可能面臨特殊的挑戰(zhàn),例如需要專業(yè)領(lǐng)域知識、高昂的計(jì)算或?qū)嶒?yàn)成本,或者物理限制等因素。當(dāng)標(biāo)記的訓(xùn)練數(shù)據(jù)不容易獲取時,進(jìn)行無監(jiān)督學(xué)習(xí)或少樣本學(xué)習(xí)的能力變得重要。這些困難催生了一個新興的研究領(lǐng)域——自監(jiān)督學(xué)習(xí)(self-supervised learning,SSL)。自監(jiān)督學(xué)習(xí)技術(shù)使得深度模型能夠利用無標(biāo)簽數(shù)據(jù),并學(xué)習(xí)現(xiàn)實(shí)數(shù)據(jù)的先驗(yàn)知識,例如物理規(guī)律和對稱性,而無需依賴大量標(biāo)記的數(shù)據(jù)集。

基礎(chǔ)模型(Foundation Models)基于自監(jiān)督學(xué)習(xí),將這種利用無任務(wù)標(biāo)簽數(shù)據(jù)的思想推向極致?;A(chǔ)模型通常是在自監(jiān)督或可泛化監(jiān)督下進(jìn)行預(yù)訓(xùn)練的大規(guī)模模型,允許在少樣本或零樣本的方式下執(zhí)行各種下游任務(wù)。而最近以 GPT-4 為代表的大語言模型(Large Language Models,LLMs)是迄今為止最通用和強(qiáng)大的基礎(chǔ)模型,歸功于文本數(shù)據(jù)中包含的無標(biāo)簽的豐富監(jiān)督。大語言模型還能夠?qū)崿F(xiàn)更靈活的知識捕獲和遷移,這歸功于它在包括物理學(xué)、計(jì)算機(jī)科學(xué)、化學(xué)、生物學(xué)、醫(yī)學(xué)等科學(xué)領(lǐng)域中具有強(qiáng)大的知識獲取和推理能力。

大語言模型在科學(xué)領(lǐng)域最令人興奮的一個應(yīng)用是生成建模。雖然幻覺(hallucination)是許多大語言模型用例中常見的問題,但對于發(fā)現(xiàn)新藥物、材料和研究思路來說,這反而成為一種優(yōu)勢。到目前為止,由自監(jiān)督學(xué)習(xí)驅(qū)動的基礎(chǔ)模型和大語言模型,是解決標(biāo)簽獲取困難并使 AI 應(yīng)用于更廣泛科學(xué)問題的最有前景的方向之一。本文探討了基礎(chǔ)模型和大語言模型如何加速 AI for science。

圖11. 將大語言模型應(yīng)用于科學(xué)領(lǐng)域的三種范式。(1)一種方法是構(gòu)建由大量科學(xué)領(lǐng)域的文本組成的數(shù)據(jù)集,并以自監(jiān)督的方式從頭開始訓(xùn)練大語言模型。訓(xùn)練好的模型可以直接使用,或進(jìn)一步微調(diào)以用于特定任務(wù)。(2)另一種方法是使用較少量的科學(xué)領(lǐng)域文本數(shù)據(jù),以自監(jiān)督的方式或配對樣本的監(jiān)督方式,對預(yù)訓(xùn)練的通用大語言模型進(jìn)行微調(diào)。(3)對于具有 API 訪問權(quán)限的專有大語言模型,可以通過使用精心設(shè)計(jì)的模板進(jìn)行提示來訓(xùn)練模型,這里領(lǐng)域知識作為提示中的少樣本、或者作為具有附加工具或模塊的顯式知識提供。


參看 AI+Science 讀書會張坤老師團(tuán)隊(duì)和多位學(xué)者關(guān)于因果科學(xué)、科學(xué)發(fā)現(xiàn)與大模型的討論:

重磅圓桌:因果推理、科學(xué)發(fā)現(xiàn)與大模型

https://pattern./study_group_issue/460

劉子鳴等人關(guān)于大語言模型和 AI for science 的討論:

Science for LLM and LLM for Science

https://pattern./study_group_issue/446


不確定性量化

不確定性量化(Uncertainty Quantification,UQ)研究面對數(shù)據(jù)和模型的不確定性,如何確保魯棒的決策,這是 AI for science 的關(guān)鍵部分。不確定性量化在應(yīng)用數(shù)學(xué)、計(jì)算和信息科學(xué)的各個方向進(jìn)行了研究,包括科學(xué)計(jì)算、統(tǒng)計(jì)建模、機(jī)器學(xué)習(xí)等。本文提供了科學(xué)發(fā)現(xiàn)背景下不確定性量化的最新綜述。

教育

AI 的進(jìn)步為加速科學(xué)發(fā)現(xiàn)、推動創(chuàng)新和解決各個領(lǐng)域的復(fù)雜問題提供了巨大潛力。然而,要充分發(fā)揮這種潛力,我們面臨著教育、人才培養(yǎng)和公眾參與等方面的新挑戰(zhàn)。本文匯總了AI 和科學(xué)各個領(lǐng)域的現(xiàn)有資源,并就如何更好地促進(jìn) AI 與科學(xué)和教育的融合提供了觀點(diǎn)。

圖12. AI for Science 學(xué)習(xí)資源匯總(詳情請參考原論文 Table 35)


3. AI for Science 思維導(dǎo)圖

AI for Science 是一個新興且快速發(fā)展的研究領(lǐng)域。為了對這項(xiàng)工作進(jìn)行持續(xù)更新,研究者們創(chuàng)建了一個在線門戶網(wǎng)站(https://air4.science/),包含 AI for Science 領(lǐng)域的思維導(dǎo)圖,涵蓋了上述各個領(lǐng)域的分類結(jié)構(gòu),用戶可以此作為全面概覽在其中導(dǎo)航,探索各個領(lǐng)域的新主題和重大進(jìn)展。本文還附帶了一個軟件庫和基準(zhǔn)測試:AIRS: AI Research for Science(https://github.com/divelab/AIRS/)。

圖13. 用戶可以訪問研究者創(chuàng)建的網(wǎng)站:https://air4.science/,探索 AI for Science 的各個領(lǐng)域。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多