电竞比分网-中国电竞赛事及体育赛事平台

分享

Nature | 基于66種癌癥類型訓練機器學習模型,繪制癌癥基因潛在驅動突變圖譜

 劉得光3p6n6zqq 2021-09-03
圖片

隨著醫(yī)療技術的進步,人類的健康水平獲得了極大提升。但面對給人類健康帶來巨大威脅的癌癥,尚沒有十分有效的治療手段。據(jù)世界衛(wèi)生組織統(tǒng)計報告,2012年全世界估計約1410萬人被檢測出癌癥,并造成820萬人死亡(相當于全年死亡人數(shù)的14.6%)。男性最常見的癌癥包括肺癌(LUAD)、前列腺癌(PRAD)、結直腸癌(COREAD)以及胃癌(Stomach cancer);女性常見的乳癌(thoracic cancer)、結直腸癌(COREAD)、肺癌(LUAD)和宮頸癌(UCEC);兒童是白血?。ˋLL)和腦瘤(Brain tumour)最為常見[1]。

在整個生命過程中,細胞DNA受損后導致基因突變,并引發(fā)一系列機體反應,最終引起癌癥的發(fā)生。人類對癌癥的研究已經(jīng)進入基因組時代,科學家們將癌癥相關基因進行了整理和標記[2,3]。這些癌癥相關基因又被分為驅動癌基因(driver)和從動癌基因(passenger),對于基因間的關系如何,對腫瘤發(fā)展的影響水平大小以及這些基因在不同腫瘤之間的不同突變頻率具有怎樣的意義等問題,在很大程度上仍然是個未解決的問題。已有研究表明,例如腫瘤蛋白TP53,表皮生長因子受體EGFP和β連環(huán)蛋白CTNNB1突變與大多數(shù)癌癥的發(fā)展有關。同時,絕大多數(shù)癌基因突變發(fā)生在中性突變之后,對特定三核苷酸變化具有明顯偏好。

癌癥基因機器學習模型的訓練和建立

近日,巴塞羅那生物醫(yī)學研究所研究團隊通過模擬中性突變,用機器合成一組推測的從動癌基因突變,以此來模擬在人體內(nèi)癌癥相關基因的多米諾骨牌式突變。研究團隊基于機器學習的方法開發(fā)出一種算法“boostDM”(圖1),用于評估給定基因所有可能的誘變,并評估它們對癌癥發(fā)展影響的可能性。該算法可幫助臨床醫(yī)生對于病人的癌癥發(fā)展做出更準確的解釋。該研究成果發(fā)表在Nature上,文章題為“In silico saturation mutagenesis of cancer genes”。

圖片

文章的通訊作者López-Bigas表示:“該算法可模擬特定類型癌癥的每個基因中的每個可能突變,并指出哪些是癌癥過程中的關鍵。這些信息有助于我們在分子水平了解腫瘤是如何引起的,促進癌癥患者進行最適合治療的醫(yī)療決策?!?/p>

圖片

圖1.用肺癌(LUAD)樣本對機器學習模型boostDM的訓練和交叉驗證。來源:Nature[4]

研究人員從公共數(shù)據(jù)庫中收集了來自66種癌癥類型約28,000個腫瘤樣本數(shù)據(jù),確定了568個癌癥基因突變。研究發(fā)現(xiàn),與隨機突變相比,在樣本中發(fā)現(xiàn)的驅動癌癥生長和發(fā)展的突變數(shù)量更多。

驗證機器學習模型的性能

研究團隊通過交叉驗證檢測了boostDM模型的性能。從圖2中可以看出,boostDM模型比其他算法更加精準(precision)和更高的發(fā)現(xiàn)能力(recall)。boostDM獲得的數(shù)據(jù)和實驗數(shù)據(jù)具有較高的吻合度。

圖片

圖2. boostDM模型優(yōu)于其他算法。來源:Nature[4]

鑒別驅動基因

研究人員在肺癌與膠質母細胞瘤中鑒定驅動癌基因和從動癌基因。(圖3)分析發(fā)現(xiàn),兩種癌細胞中驅動癌基因的分布不一致,反映了腫瘤發(fā)生的不同機制。圖3D中SHAP值越大的基因表示該基因對癌癥的發(fā)展產(chǎn)生的驅動效應越強,越小則表示其對驅動因素負面作用回饋。

圖片

圖3.驅動癌基因的特征。來源:Nature[4]

癌癥基因的驅動突變圖譜

研究團隊將185個癌癥基因-組織模型應用于基因序列中所有可能的核苷酸變化進行實驗,以繪制全面的不同蛋白質區(qū)域具有跨腫瘤類型驅動突變的可能性的圖譜(圖4)。

圖片
圖4.TP53和CTNNB1的驅動突變圖譜,EGFR在三種腫瘤組織中的突變圖譜。來源:Nature[4]

突變概率的影響

該突變圖譜揭示了許多從未在腫瘤中觀察到的潛在驅動突變。為探索突變概率對驅動突變的影響,研究人員計算了不同腫瘤類型癌癥基因中所有潛在驅動突變的發(fā)生概率。結果顯示,大多數(shù)癌癥基因表現(xiàn)出強烈的突變概率偏倚,腫瘤抑制基因通常表現(xiàn)出比癌癥基因明顯更強的偏倚。這意味著,對于大多數(shù)癌癥基因,潛在驅動突變的發(fā)生概率會影響它們中的哪些基因會被檢測到。

總結

正如文章作者所說:“該研究結果報表明,應用受進化生物學啟發(fā)的機器學習方法來構建高質量模型是可行的。這些模型從人類腫瘤中檢測到的突變中學習,以識別癌癥基因中的驅動突變。”

到目前為止,研究團隊已經(jīng)利用BoostDM制作了185個模型來識別不同類型癌癥的突變。例如,確定了導致肺癌腫瘤的EGFR基因中所有可能的突變,并在另一個模型中確定了膠質母細胞瘤腦腫瘤。研究人員計劃繼續(xù)開發(fā)和改進 BoostDM,隨著越來越多不同腫瘤測序數(shù)據(jù)的加入,應該會變得更加準確。

參考資料:

[1]. World Cancer Report 2014. World Health Organization. 2014: Chapter 1.1. ISBN 9283204298.

[2]. Sondka, Z., Bamford, S., Cole, C. G., Ward, S. A., Dunham, I., & Forbes, S. A. (2018). The COSMIC Cancer Gene Census: describing genetic dysfunction across all human cancers. Nature Reviews Cancer, 18(11), 696-705.

[3]. Martínez-Jiménez, F., Mui?os, F., Sentís, I., Deu-Pons, J., Reyes-Salazar, I., Arnedo-Pac, C., ... & Lopez-Bigas, N. (2020). A compendium of mutational cancer driver genes. Nature Reviews Cancer, 20(10), 555-572.

[4]. Mui?os, F., Martinez-Jimenez, F., Pich, O., Gonzalez-Perez, A., & Lopez-Bigas, N. (2021). In silico saturation mutagenesis of cancer genes. Nature, 1-5.

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多