|
近日,清華大學(xué)惠妍講席教授、智能產(chǎn)業(yè)研究院(AIR)首席科學(xué)家馬維英發(fā)表演講《AI與新科學(xué)》。 
本次講座圍繞AI與新科學(xué)時(shí)代的到來、了解人工智能的內(nèi)在機(jī)理、以及AI在生化環(huán)材領(lǐng)域正在進(jìn)行的創(chuàng)新三部分展開,從宏觀的角度系統(tǒng)地定義了新科學(xué),深入淺出地科普了AI的工作原理,最后從微觀的角度介紹了多個(gè)AI在不同科學(xué)領(lǐng)域中的應(yīng)用實(shí)例,為聽眾打開了探索未來科學(xué)的窗口。 什么是新科學(xué)?馬教授指出,科學(xué)是指系統(tǒng)性的構(gòu)建和組織知識(shí),并將知識(shí)用于理解我們所處的宇宙。而新科學(xué)的“新”指的是“模型”。各個(gè)科學(xué)領(lǐng)域的知識(shí)在原先基礎(chǔ)上會(huì)出現(xiàn)AI模型這一新的知識(shí)形式。AI特別擅長(zhǎng)理解高維度的數(shù)據(jù),并從海量的數(shù)據(jù)中尋找結(jié)構(gòu)、規(guī)律、模式、與關(guān)系。這一計(jì)算能力遠(yuǎn)超過人類。例如,當(dāng)AI模型學(xué)習(xí)大量蛋白質(zhì)序列與結(jié)構(gòu)的數(shù)據(jù)后,能夠理解氨基酸序列折疊的內(nèi)在規(guī)律,而能準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),這任務(wù)對(duì)人類十分困難。因此,在新科學(xué)時(shí)代,科學(xué)知識(shí)可能由人類能夠理解的知識(shí)和AI模型兩部分組成。 當(dāng)前的科學(xué)研究中,AI通常被作為一種工具,用于高性能計(jì)算或數(shù)據(jù)分析。然而,在未來,AI在科學(xué)中的地位會(huì)進(jìn)一步提高,AI可能會(huì)以自己的方式探索科學(xué)問題,并甚至通過AI的方式來發(fā)現(xiàn)科學(xué)問題。馬教授將其總結(jié)為“AI first,
of AI, by AI, for AI”。AI for Science:What's New當(dāng)前,在生物、化學(xué)、環(huán)境和材料等領(lǐng)域,數(shù)字化和實(shí)驗(yàn)自動(dòng)化進(jìn)程正在快速發(fā)展。此外,科學(xué)智能(AI for Science)的革命也在進(jìn)行中。  在科學(xué)領(lǐng)域,大量AI技術(shù)已經(jīng)體現(xiàn)其作用,如生成式AI(Generative AI)、超大模型(Ultra large model)、多模態(tài)、預(yù)訓(xùn)練(Multi-modal, Pre-trained)、干濕閉環(huán)(Dry-lab and
Wet-lab Loop)、自主學(xué)習(xí)(Autonomous AI)等。這些AI技術(shù)在加速科學(xué)發(fā)現(xiàn)方面發(fā)揮著重要作用,同時(shí)也在改變科學(xué)研究的方式和進(jìn)程。 生成式人工智能最初在內(nèi)容創(chuàng)作領(lǐng)域被廣泛使用,例如生成圖片、文字、視頻和廣告等。其核心目的是為創(chuàng)作者提供更便捷的創(chuàng)作方式。然而,隨著時(shí)間的推移,越來越多的科學(xué)家開始探索如何將生成模型應(yīng)用于分子生成,以生成新型藥物。今年,ChatGPT在全球范圍內(nèi)引起轟動(dòng),人們開始意識(shí)到生成模型已經(jīng)具備了顛覆互聯(lián)網(wǎng)及其相關(guān)生產(chǎn)力的能力。同時(shí),人們也開始注意到GPT在生物醫(yī)藥領(lǐng)域正在發(fā)生革命性變化,并有望進(jìn)入其他各個(gè)科學(xué)領(lǐng)域。 馬教授總結(jié)了GPT在科學(xué)領(lǐng)域中的發(fā)展。如下圖所示,藍(lán)色模型代表通過自然語言訓(xùn)練的領(lǐng)域內(nèi)模型,而綠色模型代表通過生物數(shù)據(jù)訓(xùn)練的科學(xué)模型。未來,這兩種模型將深度融合,形成更加強(qiáng)大的生成模型。 插件技術(shù)和工具也大大增強(qiáng)了GPT在實(shí)際應(yīng)用中的能力。當(dāng)前,一些研究人員已經(jīng)將化學(xué)領(lǐng)域的工具設(shè)備作為插件引入到GPT中,使得該模型可以綜合調(diào)用搜索引擎、代碼執(zhí)行、文獻(xiàn)檢索、自動(dòng)化實(shí)驗(yàn)等工具,以完成科研任務(wù)。“已經(jīng)有AI自主學(xué)習(xí)的感覺了?!瘪R教授這樣講到。 當(dāng)將自動(dòng)化實(shí)驗(yàn)室和AI模型結(jié)合起來時(shí),就可以實(shí)現(xiàn)干濕閉環(huán)。干實(shí)驗(yàn)室可以發(fā)起一個(gè)實(shí)驗(yàn)請(qǐng)求,并將該請(qǐng)求交由模型處理。隨后,模型會(huì)將處理結(jié)果反饋給自動(dòng)化實(shí)驗(yàn)室,以執(zhí)行相應(yīng)的濕實(shí)驗(yàn)。在實(shí)驗(yàn)的過程中,自動(dòng)化實(shí)驗(yàn)室會(huì)將實(shí)驗(yàn)數(shù)據(jù)不斷反饋給AI模型,以幫助模型進(jìn)行迭代和優(yōu)化。通過這種干濕閉環(huán)的方式,AI模型可以更加高效地進(jìn)行科學(xué)研究,也可以更加精準(zhǔn)地預(yù)測(cè)和優(yōu)化實(shí)驗(yàn)結(jié)果。 同時(shí),AI模型還可以與藥學(xué)家進(jìn)行交互式藥物生成。在這種模式下,藥學(xué)家可以根據(jù)自身的專業(yè)知識(shí)對(duì)AI模型的生成效果進(jìn)行判斷,并提出相關(guān)指導(dǎo)和建議。這種基于藥學(xué)家專業(yè)知識(shí)的AI模型生成方式被稱為'Expert-in-the-Loop',即專家在循環(huán)中的應(yīng)用。通過這種方式,藥學(xué)家的專業(yè)知識(shí)和AI模型可以深度融合,從而實(shí)現(xiàn)更加高效和精準(zhǔn)的藥物研發(fā)和生成。 在干濕閉環(huán)和專家可控藥物生成之間,還需要一個(gè)藥物基礎(chǔ)大模型來不斷累積數(shù)據(jù)和知識(shí)。這個(gè)大模型可以基于已有的數(shù)據(jù)集和知識(shí)庫(kù)進(jìn)行訓(xùn)練和優(yōu)化,從而實(shí)現(xiàn)更加精準(zhǔn)和高效的藥物生成和研究。當(dāng)干濕閉環(huán)和專家可控藥物生成與藥物基礎(chǔ)大模型相結(jié)合時(shí),AI在科學(xué)方面的能力將得到進(jìn)一步的推進(jìn)和提升。這將為藥物研發(fā)和生成帶來更多的機(jī)會(huì)和可能性。“如果我們能夠創(chuàng)造這個(gè)閉環(huán),AI在科學(xué)方面的能力將大大推進(jìn)?!?/span> AIR于近期開源了輕量級(jí)科研版基礎(chǔ)模型BioMedGPT-1.6B。聶再清教授課題組構(gòu)建BioMedGPT的目標(biāo)是要把分子語言中蘊(yùn)含的知識(shí)以及長(zhǎng)期以來通過濕實(shí)驗(yàn)總結(jié)的文本和知識(shí)圖譜信息融合壓縮到一個(gè)大規(guī)模語言模型中,從而實(shí)現(xiàn)從序列模式中學(xué)習(xí)生物結(jié)構(gòu)和功能規(guī)律,通過AI解碼生命語言。 生物醫(yī)藥領(lǐng)域通過濕實(shí)驗(yàn)積累了很多有價(jià)值的知識(shí)和數(shù)據(jù),很多都可以公開獲取使用,如蛋白質(zhì)序列目前已有超過22億條數(shù)據(jù),可購(gòu)買的具備成藥性的小分子有2.3億等。這些海量公開分子序列數(shù)據(jù)其實(shí)完全可以用語言模型來學(xué)習(xí)其語義表征,用于藥物研發(fā)任務(wù)。同時(shí),現(xiàn)存也有許多生物學(xué)家們幾百年來積累的海量文獻(xiàn)和知識(shí)圖譜數(shù)據(jù),無論知識(shí)圖譜還是文獻(xiàn)都可以單獨(dú)訓(xùn)練出一個(gè)大的知識(shí)表征模型,而且這些不同模態(tài)的數(shù)據(jù)里的分子信息是相互關(guān)聯(lián)的,如果能把它們統(tǒng)一壓縮在一個(gè)大模型里,將惠及未來所有的生物醫(yī)藥下游任務(wù)。
BioMedGPT在數(shù)據(jù)層面整合了基因、分子、細(xì)胞、蛋白、文獻(xiàn)、專利、知識(shí)庫(kù)等多源異構(gòu)的數(shù)據(jù),首次將知識(shí)引入到模型構(gòu)建中,實(shí)現(xiàn)了生物世界文本和知識(shí)的統(tǒng)一表示學(xué)習(xí),增強(qiáng)了模型的泛化能力和可解釋性。在應(yīng)用任務(wù)方面,BioMedGPT能夠處理自然語言、藥物性質(zhì)預(yù)測(cè)、跨模態(tài)生成等多個(gè)任務(wù),實(shí)現(xiàn)對(duì)生命科學(xué)全域任務(wù)的探索,已經(jīng)在多個(gè)關(guān)鍵下游任務(wù)中取得了 SOTA 的效果。 為了更好地理解生成式AI,我們需要了解其涉及的三個(gè)關(guān)鍵階段:目標(biāo)、概率建模和參數(shù)化。 “生成式AI的本質(zhì)目標(biāo)是拉進(jìn)兩個(gè)分布。”馬教授簡(jiǎn)明扼要地總結(jié)了生成問題的本質(zhì)目標(biāo),即讓AI學(xué)習(xí)到的分布盡可能的擬合真實(shí)數(shù)據(jù)的分布。只要AI模型能逼近真實(shí)的分布,就可以通過采樣生成各種模態(tài)的數(shù)據(jù),如圖片、文本、乃至蛋白質(zhì)和小分子等。如圖里表示的,這兩個(gè)分布一個(gè)是P-data,即數(shù)據(jù)本身的真實(shí)分布,是不可知的。另一個(gè)是 P-theta,是我們要用模型參數(shù)theta去近似的分布,只要P-theta學(xué)的足夠準(zhǔn),和P-data一樣,那從P-theta模型里采樣出的樣本點(diǎn)就和從真實(shí)數(shù)據(jù)中采樣出來的一樣,就算是生成了這個(gè)數(shù)據(jù)。在這個(gè)目標(biāo)下, 生成模型主要是分成兩部分:第一,我們需要考慮用什么模型來建模這個(gè)概率分布,要拉近這兩個(gè)分布,從概率上應(yīng)該怎么拉呢?概率模型是什么?現(xiàn)有的一些比較常見的如自回歸模型,就是GPT采用的,還有如VAE,GAN,Diffusion等等,其實(shí)就是不同的概率建模,這些方法各自有其優(yōu)點(diǎn)和局限性。在不同的概率建模后面,具體P-theta用什么參數(shù)來參數(shù)化,現(xiàn)在用的多的就是Transformer。Transformer是一種強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以有效地捕獲數(shù)據(jù)中的長(zhǎng)程依賴關(guān)系,從而提高模型的性能和泛化能力。 馬教授進(jìn)一步講解了兩個(gè)著名的大規(guī)模語言模型范式:BERT和GPT,并在GPT的基礎(chǔ)上介紹了OpenAI提出的InstructGPT(ChatGPT的前身)智能涌現(xiàn)是指當(dāng)模型參數(shù)量增加到一定規(guī)模時(shí),模型的性能會(huì)突然提升,這與傳統(tǒng)觀點(diǎn)認(rèn)為模型性能隨參數(shù)數(shù)量呈線性增長(zhǎng)的看法不同。馬教授還介紹了大模型里Double Decent的現(xiàn)象,還有過度參數(shù)化(over-parameterization)和過度擬合(Over-fitting)是不同的概念。當(dāng)模型參數(shù)數(shù)量增加時(shí),效果將呈現(xiàn)U型變化,即隨著參數(shù)數(shù)量的增加,模型的性能先得到增強(qiáng),然后隨著參數(shù)數(shù)量的進(jìn)一步增加,模型性能開始下降。然而,當(dāng)模型的參數(shù)數(shù)量達(dá)到一定閾值時(shí)(Interpolation threshold),模型會(huì)進(jìn)入過度參數(shù)化階段,此時(shí)隨著參數(shù)數(shù)量的進(jìn)一步增加,模型的性能會(huì)再次提升,這與傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)大模型性能的了解不太相同。
 “很多時(shí)候做科學(xué)研究,我們會(huì)有一個(gè)局限的認(rèn)知,一直在門口不敢再往前,但是沖過去發(fā)現(xiàn)居然是這樣?!?/span>馬教授對(duì)這一現(xiàn)象進(jìn)行了提煉升華。隨后,馬教授用貓狗圖像分類問題為切入點(diǎn),結(jié)合生動(dòng)的圖表與動(dòng)畫為聽眾介紹了深度神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)和工作的。AI在生化環(huán)材領(lǐng)域正在進(jìn)行的創(chuàng)新
早期的自然語言處理中,語言學(xué)家設(shè)計(jì)了大量規(guī)則來建模語言,后來逐漸被統(tǒng)計(jì)的方法取代,直至當(dāng)下的生成式AI。有趣的是,如果我們將蛋白質(zhì)序列視為一種語言,就可以將蛋白質(zhì)和自然語言處理領(lǐng)域進(jìn)行比較。當(dāng)下的很多基于規(guī)則的蛋白質(zhì)理解或設(shè)計(jì)方法都具有被AI模型增強(qiáng)甚至取代的可能性。如下圖所示,我們可以很容易地找到與自然語言處理領(lǐng)域相關(guān)的概念,在蛋白質(zhì)領(lǐng)域中進(jìn)行類比。
 AIR智慧醫(yī)療團(tuán)隊(duì)在抗體設(shè)計(jì)領(lǐng)域進(jìn)行了大量研究工作。我們與清華大學(xué)醫(yī)學(xué)院張林琦教授團(tuán)隊(duì)合作,對(duì)人體內(nèi)的新冠中和抗體進(jìn)行了定向優(yōu)化,使得其中和能力超過了人體能夠提取出的最佳抗體。“等于說用AI將一個(gè)三流的學(xué)生優(yōu)化成了一個(gè)一流的學(xué)生。”這項(xiàng)工作也曾被麻省理工科技評(píng)論報(bào)道。近期,AIR在抗體設(shè)計(jì)領(lǐng)域取得了新進(jìn)展,AIR執(zhí)行院長(zhǎng)劉洋教授課題組論文《Conditional
Antibody Design as 3D Equivariant Graph Translation》使用了圖學(xué)習(xí)的方法,通過將抗體的CDR區(qū)視為一個(gè)翻譯問題來設(shè)計(jì)抗體。這篇論文獲得了ICLR2023
Outstanding Paper Honorable Mention。
 目前,AIR團(tuán)隊(duì)正在和Helixon一起研究雙特異性抗體和四價(jià)抗體的表位設(shè)計(jì),這些抗體在腫瘤治療方面具有巨大的潛力。小分子藥物的種類非常多,傳統(tǒng)的高通量虛擬篩選成本高昂。例如,如果需要進(jìn)行100億規(guī)模的虛擬篩選,可能需要耗費(fèi)3000年的時(shí)間和80萬美元的成本。然而,使用AI模型則有望大大加速虛擬篩選的過程,并在秒級(jí)時(shí)間內(nèi)完成這一任務(wù),這具有廣闊的應(yīng)用前景。  藥物設(shè)計(jì)和酶設(shè)計(jì)是兩個(gè)重要的問題,前者是給定蛋白質(zhì),尋找可以作用于其上的小分子,后者則是給定小分子,尋找可以催化其反應(yīng)的蛋白質(zhì)。將這兩個(gè)問題結(jié)合起來思考非常有趣。 AI設(shè)計(jì)小分子也面臨著很多挑戰(zhàn)。例如,生成的分子不能和靶點(diǎn)之外的蛋白相作用,否則會(huì)導(dǎo)致副作用等不良影響。此外,AI設(shè)計(jì)的小分子藥物通常難以合成,因?yàn)檫@些分子結(jié)構(gòu)復(fù)雜、多樣,需要經(jīng)過多步的合成過程。但這些問題都在逐漸得到優(yōu)化和解決。
 AI模型已經(jīng)被用來優(yōu)化酶,例如增強(qiáng)酶的穩(wěn)定性。我們團(tuán)隊(duì)也在進(jìn)行一些研究工作,已經(jīng)能夠大大改進(jìn)設(shè)計(jì)的酶的穩(wěn)定性。隨著柔性顯示等領(lǐng)域的發(fā)展,有機(jī)半導(dǎo)體材料越來越多地受到人們的關(guān)注。有機(jī)半導(dǎo)體材料良好的成膜性質(zhì)及其可溶液加工的特點(diǎn)使器件的制備較傳統(tǒng)的無機(jī)材料更簡(jiǎn)便,成本更低廉。在柔性顯示、傳感器和可穿戴設(shè)備等領(lǐng)域具有非常廣闊的應(yīng)用前景。
 有機(jī)發(fā)光分子的空間結(jié)構(gòu)巨大,其設(shè)計(jì)往往需要考慮多種因素。傳統(tǒng)的設(shè)計(jì)方法往往依賴于人類的經(jīng)驗(yàn)和知識(shí),而難以覆蓋整個(gè)設(shè)計(jì)空間。因此,利用人工智能進(jìn)行有機(jī)發(fā)光分子的設(shè)計(jì)具有巨大的潛力。例如,通過利用深度生成模型,如diffusion模型,可以對(duì)有機(jī)發(fā)光分子進(jìn)行高效的設(shè)計(jì)。“這個(gè)領(lǐng)域有非常大的科研機(jī)會(huì),科學(xué)是無盡的前沿,我認(rèn)為一切才剛剛開始?!瘪R教授這樣總結(jié)。 的確,AI+新科學(xué)是一個(gè)非常新穎且前沿的領(lǐng)域,它們的結(jié)合為我們帶來了非常多的機(jī)遇和挑戰(zhàn)。它可以進(jìn)一步加深我們對(duì)自然世界的理解。通過AI的技術(shù)手段,我們可以處理更加復(fù)雜和大量的數(shù)據(jù),探索我們過去從未探索過的現(xiàn)象和規(guī)律,從而推進(jìn)新的科學(xué)發(fā)現(xiàn)。歡迎對(duì)AI for Science感興趣的科研人才加入這一領(lǐng)域,一起推動(dòng)科學(xué)事業(yè)的進(jìn)步。“一切剛剛開始,一切皆有可能?!?/span>
點(diǎn)擊觀看馬維英教授完整演講視頻 AIR長(zhǎng)期招聘人工智能領(lǐng)域優(yōu)秀科研人員 點(diǎn)這里關(guān)注我們 清華大學(xué)智能產(chǎn)業(yè)研究院(Institute for AI Industry Research, Tsinghua University,英文簡(jiǎn)稱AIR,THU)是面向第四次工業(yè)革命的國(guó)際化、智能化、產(chǎn)業(yè)化的研究機(jī)構(gòu)。AIR的使命是利用人工智能技術(shù)賦能產(chǎn)業(yè)升級(jí)、推動(dòng)社會(huì)進(jìn)步。通過大學(xué)與企業(yè)創(chuàng)新雙引擎,突破人工智能核心技術(shù),培養(yǎng)智能產(chǎn)業(yè)領(lǐng)軍人才,推動(dòng)智能產(chǎn)業(yè)跨越式發(fā)展。AIR于2020年由多媒體及人工智能領(lǐng)域的世界級(jí)科學(xué)家、企業(yè)家張亞勤院士創(chuàng)建。智慧交通(AI+Transportation)、智慧物聯(lián)(AI+I(xiàn)oT)、智慧醫(yī)療(AI+Life Science)是清華大學(xué)智能產(chǎn)業(yè)研究院的三個(gè)重點(diǎn)研發(fā)方向。
|