發(fā)表在Nature期刊1月份的文章:Seven technologies to watch in 2022對2022年可能撼動科學發(fā)展的工具進行了第五次年度總結(jié),其中包括了從基因編輯到蛋白質(zhì)結(jié)構(gòu)確定再到量子計算的技術(shù)[1]
 人類共有基因組序列GRCh38于2013年首次發(fā)布,是用來繪制序列的支架,但它們較短,長度不足以明確地繪制出高度重復的基因組序列。2019年端粒到端粒 (T2T) 聯(lián)盟成立以來解決了大約十分之一未知的人類基因組。去年5月,該聯(lián)盟報告了人類基因組的第一個端到端序列,為人類共有基因組序列 GRCh38 添加了近2億個新堿基對,并撰寫了人類基因組的最后一章。T2T聯(lián)盟是如何完成這些工作的呢?答案是美國太平洋生物科學公司和英國牛津納米孔技術(shù)公司開發(fā)的長讀長測序技術(shù),這種技術(shù)可以在一次讀取中對數(shù)萬甚至數(shù)十萬個堿基進行測序。到2020年T2T團隊首次重組單獨的X染色體和8號染色體時,太平洋生物科學公司的測序已經(jīng)使T2T科學家可以檢測到長段重復序列中微小變化的程度。這些微妙的“指紋”使長段重復的染色體片段易于處理,基因組的其余部分也能迅速歸位。納米孔技術(shù)公司幫助T2T捕獲了許多調(diào)節(jié)基因表達的 DNA修飾,即“表觀遺傳標簽”。T2T解決的基因組來自包含兩組相同染色體的細胞系。正常二倍體人類基因組中每個染色體都有兩個版本,研究人員現(xiàn)在正在研究“基因分型”策略,可以將每個序列分配給對應的染色體拷貝。這項二倍體組裝工作是與T2T的合作伙伴組織——人類泛基因組參考聯(lián)盟合作進行的,該組織希望根據(jù)來自世界各地的數(shù)百名捐贈者制作更具代表性的基因組圖譜。未來有望利用這些完整基因組的組裝能力為地球上的每個脊椎動物物種生成完整的序列。圖1 端粒到端粒聯(lián)盟正在對整個染色體進行測序 (來源:Adrian T. Sumner/SPL)  蛋白的結(jié)構(gòu)決定了功能,但蛋白的結(jié)構(gòu)并不容易確定。在過去兩年里,實驗和計算方面的進步使研究人員能夠以前所未有的速度和分辨率確定蛋白質(zhì)的結(jié)構(gòu)。AlphaFold2結(jié)構(gòu)預測算法由英國DeepMind公司開發(fā),它依靠“深度學習”策略從氨基酸序列推斷蛋白質(zhì)的形狀。自2021年7月公開發(fā)布以來,AlphaFold2已應用于蛋白質(zhì)組研究,來確定在人類和20種模式生物中表達的所有蛋白質(zhì)的結(jié)構(gòu),以及Swiss-Prot數(shù)據(jù)庫中的近440000種蛋白質(zhì),大大增加了可獲得高置信度建模數(shù)據(jù)的蛋白質(zhì)數(shù)量。AlphaFold算法也證明了其解析多鏈蛋白質(zhì)復合物的能力。同時,冷凍電鏡(cryo-EM)的發(fā)展使研究人員能夠通過實驗方法處理即使是最具挑戰(zhàn)性的蛋白質(zhì)和復合物。Cryo-EM使用電子束掃描快速冷凍的分子,生成多個方向的蛋白質(zhì)圖像,然后可以通過計算重新組裝成3D結(jié)構(gòu)。2020年,cryo-EM硬件和軟件的改進使兩個團隊能夠生成分辨率低于1.5埃的結(jié)構(gòu),捕獲單個原子的位置。AlphaFold2現(xiàn)在被視為對冷凍電鏡等實驗方法的補充,其計算模型可以幫助數(shù)據(jù)分析和重建。冷凍電鏡可以生成目前無法進行計算預測的結(jié)果。另一相關(guān)技術(shù)冷凍電子斷層攝影術(shù)(cryo-ET)可以捕捉冷凍細胞薄片中的天然蛋白質(zhì)結(jié)構(gòu),這也相當振奮人心。圖2 RBD-ACE2-B0AT1復合物的冷凍電鏡圖[2]  原子很小,但它們可以被誘導進入直徑在一微米或更大的高度激發(fā)狀態(tài)。通過控制數(shù)百個原子排列陣列的激發(fā),物理學家已經(jīng)證明他們可以解決具有挑戰(zhàn)性的物理問題,進而將傳統(tǒng)計算機推向極限。量子計算機以量子比特的形式處理數(shù)據(jù)。量子比特通過量子物理中的糾纏現(xiàn)象可以在一定距離內(nèi)相互影響。這些量子比特可以極大地提高計算能力。多個團隊已經(jīng)成功地將單個離子作為量子比特,但它們的電荷使其難以在高密度下組裝。法國國家科學研究中心的Antoine Browaeys和美國哈佛大學的Mikhail Lukin等物理學家正在探索使用光學鑷子在緊密排列的2D和3D陣列中精確定位不帶電的原子,然后應用激光將這些粒子激發(fā)成大直徑的“里德堡原子”,并使它們與附近的原子糾纏在一起。里德堡原子系統(tǒng)是單獨可控的,它們的相互作用可以打開和關(guān)閉,這反過來又賦予了它們可編程性。這種方法在短短幾年的時間里獲得了相當大的發(fā)展勢頭,技術(shù)進步提高了里德堡原子陣列的穩(wěn)定性和性能,并從幾十個量子比特快速擴展到幾百個量子位。早期的應用主要集中在已提出的問題上,例如預測材料的性能,但其用途十分廣泛,不僅限于此。該領域的先驅(qū)們已經(jīng)成立了一些公司,正在開發(fā)實驗室用的里德堡原子陣列系統(tǒng),這種量子模擬器可能在一兩年內(nèi)就可以商用。這項工作為量子計算機在包括經(jīng)濟、物流和加密領域(如通信加密)的更廣泛應用鋪平道路。圖3 量子模擬觀測聲波的產(chǎn)生[3]  CRISPR-Cas9技術(shù)傾向于使基因失活而不是基因修復。這是因為細胞對Cas9酶靶向基因組序列產(chǎn)生雙鏈切割的修復并不精確。CRISPR-Cas9修復經(jīng)常因小的插入或缺失而變得混亂。哈佛大學的化學生物學家David Liu指出,人類大多數(shù)遺傳疾病需要的是基因修正而不是基因失活。他們團隊已經(jīng)開發(fā)出兩種方法來做到基因修正。兩種方法都利用了CRISPR的精確定位,但在該位點不能行使切割DNA功能的Cas9的變體。第一種稱為單堿基編輯,將催化受損形式的Cas9(Dcas9或Cas9 nikase)與另一種酶(DNA修飾酶)結(jié)合,幫助一種核苷酸轉(zhuǎn)化為另一種核苷酸,但目前只能使用此方法進行某些特定堿基到堿基的更改(參見 Nature https:///hc2t;2016))。該團隊最新開發(fā)了引導編輯,將Cas9與逆轉(zhuǎn)錄酶聯(lián)系起來,并使用一種修改的引導RNA,該RNA可以將所需編輯的內(nèi)容整合到基因組序列中[4]。通過多階段的生化過程,這些成分將引導RNA復制到最終取代目標基因組序列的DNA中。重要的是,這兩種方法都只切割一條DNA鏈,這對細胞來說是一種更安全且破壞性更小的過程。單堿基編輯在2016年首次被報道,現(xiàn)在已經(jīng)進入臨床。引導編輯也在不斷升級換代。圖4 引導編輯示意圖[4]  基于核酸的藥物雖然具有臨床價值,但它們可應用的組織仍受到很大限制。大多數(shù)治療或是局部給藥,或是對從患者身上采集的細胞進行離體操作再移植回患者體內(nèi)。腺相關(guān)病毒是許多基因療法的首選載體,動物研究表明,仔細選擇合適的病毒,結(jié)合組織特異性的基因啟動子,可以實現(xiàn)特定器官的高效遞送。但病毒有時難以大規(guī)模生產(chǎn),還會引發(fā)免疫反應,破壞療效或產(chǎn)生不良事件。脂質(zhì)納米粒是一種非病毒替代品,過去幾年發(fā)表的幾項研究強調(diào)了調(diào)控其特異性的潛力。美國德克薩斯大學生物化學家Daniel Siegwart等人開發(fā)的選擇性器官靶向(SORT)方法能幫助快速生成和和篩選脂質(zhì)納米粒,找出能有效靶向肺或脾臟等組織細胞的納米粒。許多團隊也在探索如何利用細胞特異性抗體等蛋白質(zhì)成分幫助靶向過程。Beam Therapeutics和Intellia等公司在骨髓中靶向血液和免疫細胞前體的臨床前進展振奮人心,這兩家公司都使用特殊設計的脂質(zhì)納米粒,它們的成功靶向?qū)⑹够颊弑苊猱斍鞍ɑ熢趦?nèi)的體外基因療法所涉及的痛苦過程。圖5 負載mRNA脂質(zhì)納米粒的制備、優(yōu)化和肝靶向遞送示意圖[5]  單細胞組學的發(fā)展使研究人員現(xiàn)在可以常規(guī)地從單個細胞中獲得遺傳、轉(zhuǎn)錄組、表觀遺傳和蛋白質(zhì)組學的見解,但是這種技術(shù)也由于將細胞從其原始環(huán)境中剝離出來而遺漏關(guān)鍵信息。空間轉(zhuǎn)錄組學領域的大爆發(fā)源于2016年,瑞典皇家理工學院的Joakim Lundeberg團隊制備了帶有條形碼的寡核苷酸(RNA或DNA的短鏈)載玻片,它們可以從完整的組織切片中捕獲信使RNA,這樣每個轉(zhuǎn)錄本就可以根據(jù)其條形碼定位到樣本中的特定位置。現(xiàn)在有多種商業(yè)系統(tǒng)可供使用,包括10x Genomics公司的Visium空間基因表達平臺,該平臺建立在Lundeberg的技術(shù)之上。學術(shù)團體也在繼續(xù)開發(fā)新方法,以更好的深度和空間分辨率繪制基因表達圖譜。研究人員正在他們的空間圖譜中疊加組學數(shù)據(jù),例如耶魯大學Rong Fan開發(fā)了采用微流體系統(tǒng)的DBiT-seq 16平臺,可以同時為數(shù)千個mRNA轉(zhuǎn)錄樣本和數(shù)百個以標記寡核苷酸抗體作為標簽的蛋白質(zhì)生成條形碼,這可以更準確地評估細胞基因表達如何影響蛋白質(zhì)的產(chǎn)生和活性。他們還利用此平臺來研究免疫細胞激活等過程。包括Visium平臺和Nanostring的GeoMx系統(tǒng)的商業(yè)系統(tǒng)還可以在從多種蛋白質(zhì)中獲取空間數(shù)據(jù)的同時獲取轉(zhuǎn)錄組學信息。Lundeberg團隊改進空間轉(zhuǎn)錄組學方法,來同時捕獲DNA序列數(shù)據(jù),進而繪制腫瘤發(fā)生背后的時空事件。Rong Fan的團隊展示了組織樣本中染色質(zhì)修飾的空間定位,用來揭示影響發(fā)育、分化和細胞間通訊等過程的細胞基因調(diào)控。  圖6 空間轉(zhuǎn)錄組學的應用[6]  CRISPR-Cas系統(tǒng)能夠精確切割特定核酸序列,這種能力來源于細菌抵抗病毒感染的“免疫系統(tǒng)”作用,因此該系統(tǒng)對病毒診斷也有適用性。但并不是所有Cas酶的作用都相同。Cas9是基于CRISPR基因組操作的首選酶,但基于CRISPR的診斷大多使用Cas13的靶向RNA分子家族,該家族于2016年由分子生物學家張鋒及其團隊發(fā)現(xiàn)。Cas13利用向?qū)?/span>RNA通過堿基配對識別RNA靶標,并激活核糖核酸酶活性,可通過報告RNA作為診斷工具使用。Cas13作為病毒診斷工具是因為它不只是切割向?qū)NA靶向的RNA,它還對附近的其他RNA分子進行“附帶切割”。許多基于Cas13的診斷方法使用一種將熒光標簽連接到抑制熒光猝滅分子上的報告RNA。當Cas13在識別病毒RNA且被激活時,會切割報告基因并從猝滅基團釋放熒光標簽,產(chǎn)生可檢測的信號。一些病毒釋放出強的信號,可以在不擴增的情況下被檢測,從而簡化了即時診斷。去年1月,就有研究人員展示了一種用于檢測無擴增SARS-CoV-2的基于鼻拭子的快速CRISPR-Cas13檢測方法。RNA 擴增可以提高對微量病毒序列的敏感性,麻省理工學院-哈佛大學博德研究所的遺傳學家Sabeti和她的同事開發(fā)了一種微流體系統(tǒng),僅使用來自幾微升樣本的擴增遺傳物質(zhì),就可以同時篩選多種病原體。她們還開發(fā)出了可以同時檢測超過169種人類病毒的基于CRISPR的工具。包括靶向DNA的Cas12等其他Cas酶可以充實診斷工具箱,檢測更廣泛的病原體,甚至可以有效診斷其他非傳染性疾病。圖7 基于CRISPR的診斷系統(tǒng)示意圖
|