MIT「神諭」模型登Nature封面!破譯DNA的前世今生和未來

        來源:hao123百家號     時間:2022-03-17 16:36:38

        編輯:好困 拉燕

        【新智元導讀】一個模型即可破譯非編碼DNA的進化歷史和未來?

        今天,機器學習再次登上Nature的封面!

        這次,來自麻省理工學院和英屬哥倫比亞大學等機構的研究人員構建了一個深度學習神經網絡模型——「神諭」。

        利用數億次實驗觀測結果進行訓練之后,「神諭」可以預測酵母中的非編碼DNA序列的突變會如何影響基因表達。

        論文鏈接:https://www.nature.com/articles/s41586-022-04506-6#Abs1

        此外,研究人員還提出了一種獨特的方法,可以在兩個維度表示適應度地形,從而讓理解酵母之外的生物體更加輕松。甚至還能設計出一種通用的基因表達模式,用于推進基因治療和工業化應用。

        非編碼DNA是什么?

        雖然我們每個人體細胞都包含大量基因,但是所謂的「編碼DNA」僅僅占我們所有基因的1%。而剩下的99%,都不是具備編碼能力的DNA,不能通過這些DNA生成蛋白質。

        這種非編碼DNA(戲稱垃圾DNA),有一個重要功能。即,控制基因的「開或關」,以及生成的蛋白質的數量。

        隨著時間的推移,細胞會復制DNA以生長和分裂。在這些非編碼區,突變時常會發生,包括功能上的微調,或是改變控制基因表達的方式。

        很多突變都是不值一提的,甚至還有一些突變是有好處的。然而,這些突變偶爾也會增加一些常見疾病(比如2型糖尿病)的患病幾率,或者更嚴重的一些疾病(比如癌癥)的患病幾率。

        基因表達在進化中的可塑性

        為更好的了解這種突變帶來的影響,研究人員一直在進行對數學圖譜的研究,從而觀察生物體的基因組,預測哪些基因會被表達,并確定該種表達會如何影響生物體可觀察的特征。

        這些圖譜被稱作「適應度地形」,大約一個世紀以前,「適應度地形」被提出,目的是理解基因組成如何影響生物體的適應型,尤其是繁殖成功率。早期的圖譜比較簡單,只關注少量的突變。

        適應度地形

        如今,研究人員擁有更為豐富的數據庫,但他們仍然需要額外的工具來描述這些復雜的數據,并實現數據的可視化。

        這種能力一方面可以讓研究人員更好地理解一個單獨的基因是如何隨著時間的推移進化,另一方面還可以幫助預測未來可能出現的基因序列和基因表達的變化。

        AI在生物學領域的又一次突破

        麻省理工學院的研究生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,還有他們的同事們,為了實現這一目標,構建了一個神經網絡模型來預測基因表達。

        他們通過在酵母中輸入上百萬個完全隨機的非編碼DNA序列組成的數據集訓練模型,來觀察每一個隨機序列是如何影響基因表達的。

        首先,研究人員在一大群酵母細胞中測量了編碼黃色熒光蛋白(YFP)基因的表達情況。

        其中,不同的細胞會攜帶不同的啟動子。這些啟動子位于一小塊環狀DNA上靠近YFP基因的地方,作為蛋白質的結合位點,啟動子可以控制附近基因的表達。

        具體來說,研究人員使用了3000多萬個不同的啟動子,每個啟動子的長度是80個堿基對,并對每個含有這些啟動子之一的細胞產生的YFP進行量化。

        基因調控DNA的進化、可進化性和工程化

        隨后,研究人員將得到的表達數據輸入到卷積神經網絡之中,并訓練該網絡從數據中預測基因表達。

        為了驗證其有效性,研究人員合成了數千個未用于訓練的啟動子序列,并測量了它們驅動基因表達的能力。

        結果表明,神經網絡非常準確地預測了每個啟動子序列驅動基因表達的程度。

        此外,研究人員還向該網絡提供了隨機的起始序列,結果同樣證明了,AI從序列中預測基因表達的能力可以用于將這些起始序列轉化為極端YFP表達的啟動子序列。

        最后,研究人員又合成了500個這些序列,并測量了它們驅動YFP表達的能力。結果表明計算機模擬的序列確實可以驅動非常高和非常低的表達。

        為了搞清楚最基礎的進化問題,Vaishnav和他的同事們查閱了各類論文,甚至還把一個現有的研究中所有的數據集全放到了模型里進行嘗試。

        而想構建一個強大到可以探測任何基因的工具,還需要找到一種辦法來預測非編碼序列的進化模式,哪怕沒有完整的數據集。

        為了實現這個目標,他們設計出了一種計算技巧,可以把預測從框架里插到二維圖像上。

        如此一來便可以使用簡單的方式,了解任何一個非編碼的DNA蓄力了是如何影響基因表達和基因的適應性的,且無需在實驗室耗時耗力的做任何實驗。

        有什么意義?

        50多年來,生物學家們都在試圖通過非編碼DNA序列來準確預測基因表達的強度。然而基因表達的生化機制是非常復雜的,即便是學界盡了最大的努力也沒有實現這一目標。

        在這項研究發表以前,研究人員大多只能使用已知的突變來訓練模型(充其量有些微小的變化)。

        然而,Regev的小組邁出了更大的一步。他們構建的無偏模型,能夠預測生物體的適應性和基因表達,這基于任何可能的DNA序列,哪怕有些基因序列從來沒有見到過。

        實驗證明,對于大多數起始序列,3、4個突變足以使序列演化出非常高或非常低的表達。而大約70%的酵母基因在其表達上為穩定選擇(有利于不會導致表達發生巨大變化的突變的選擇)。

        此外,受穩定選擇影響的基因對非編碼DNA突變的抵抗力更強。也就是說,其啟動子的突變在較小程度上改變了基因的表達。

        「神諭」的出現和其他諸如預測蛋白質折疊的深度學習應用一樣,為科學家們探索和解釋更加廣泛的領域來帶了一種新的方法。

        此外,「神諭」也能讓研究人員出于制藥目的控制細胞,這包括最新的治療癌癥和自身免疫失調的疾病。

        麻省理工學院的生物學博士,同時也是哈佛大學和麻省理工學院博德研究所的核心成員的Aviv Regev說:「現在,我們有一個『神諭』,我們可以向它請教很多問題,比如,如果我們把序列里所有的突變全部嘗試一遍會怎樣、或是我們應該設計出什么樣的新序列才能得到我們想要的基因表達。」

        她表示,科學家們現在可以使用模型來解決各自的生物進化課題,和為了預期的基因表達設計基因序列的相關問題等等。

        愛丁堡大學醫學研究委員會人類遺傳學部門的教授Martin Taylor表示,該研究充分說明了,人工智能不僅可以預測非編碼DNA的變化,還能揭示數百萬年生物進化的底層邏輯。

        研究的局限性

        盡管如此,在蘇黎世大學從事進化生物學和環境研究的Andreas Wagner表示,「神諭」也有其明顯的局限性。

        其一,研究人員只改變了啟動子--只是可能影響基因表達的幾種類型的序列中的一種。它沒有考慮到周圍DNA變化的影響,包括可能影響基因表達的蛋白質編碼區的變化。

        其二,它是為酵母而開發的,在酵母中,基因調控的復雜性遠低于人類。例如,酵母的調控DNA通常位于被調控基因的幾百個堿基對內,而動物的調控DNA可能位于數百萬個堿基對之外。因此,目前還不清楚這個方法是否能擴展到更復雜的基因調控。

        最后,就像神話中的神諭一樣,這個模型可以進行預測但無法解釋。

        它沒有告訴我們為什么一個啟動子有高表達或低表達,哪些轉錄因子在啟動子上結合,或者它們如何相互作用。

        換句話說,它在闡明基因表達的調控邏輯方面作用不是很大。

        不過,我們依然可以保持謹慎的樂觀。

        盡管用于訓練的3000萬個序列只是DNA的4個核苷酸可能形成的所有4^80種序列的一小部分(約2×10^-41),但該方法還是非常成功的。

        由此也可以推斷出,即便是在序列空間進行稀疏采樣,也大概率不會成為模型的障礙。

        作者介紹

        麻省理工學院的博士生Eeshit Dhaval Vaishnav是這項研究的第一作者。

        他共發表過8篇頂刊論文。分別是「Nature」3篇,子刊「Nature Medicine」、「Nature Biotechnology」、「Nature Communications」各1篇,以及「Cell」1篇。

        此前在印度理工學院獲得計算機科學與工程和生物科學與生物工程雙學位。

        英屬哥倫比亞大學生物醫學工程學院助理教授Carl de Boer博士是共同一作。

        他于2008獲得滑鐵盧大學計算機科學和生物信息學學士學位,并于2014年獲得多倫多大學分子遺傳學博士學位,此后便一直從事博士后研究。2020年進入英屬哥倫比亞大學成為助理教授。

        麻省理工學院的生物學教授Aviv Regev博士是這項研究的資深研究員。

        她分別于1997年和2003年在特拉維夫大學獲得碩士和博士學位,是麻省理工學院和哈佛大學Broad研究所的核心成員以及麻省理工學院生物系的教授,也是Genentech Research和Early Development的負責人。曾與Sarah Teichmann一起創立并領導了人類細胞圖譜項目。

        她的研究方向是生物網絡、基因調控和進化。工作重點是剖析復雜的分子網絡,以確定它們在面對遺傳和環境變化時,以及在分化、進化和疾病期間是如何運作和演變的。

        參考資料:

        https://www.nature.com/articles/s41586-022-04506-6

        https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

        https://www.nature.com/articles/d41586-022-00384-0

        標簽: 前世今生

        精彩放送
        精品久久久久久亚洲| 亚洲片国产一区一级在线观看| 亚洲AV无码乱码精品国产| 亚洲国产中文在线视频| 亚洲午夜福利717| 中文字幕亚洲图片| 亚洲人成影院在线观看| 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲 | 国产亚洲综合久久| 久久久久亚洲国产AV麻豆 | 亚洲精品~无码抽插| 亚洲午夜激情视频| 国产成人亚洲影院在线观看| 亚洲一区二区三区在线视频| 亚洲高清视频一视频二视频三| 亚洲VA综合VA国产产VA中| 亚洲成人国产精品| 亚洲一区二区三区在线播放| 在线观看午夜亚洲一区| 亚洲日韩激情无码一区| 国产精品国产亚洲精品看不卡| 亚洲AV无码国产丝袜在线观看| 亚洲第一视频网站| 久久久久亚洲AV无码观看| 亚洲日本香蕉视频观看视频| 亚洲一级免费视频| 亚洲精品无码你懂的| 在线观看亚洲精品专区| 亚洲麻豆精品国偷自产在线91| 在线观看亚洲av每日更新| 久久亚洲国产伦理| 亚洲成a人片在线观看播放| 亚洲国产91在线| 亚洲AV日韩综合一区| 亚洲人成色77777在线观看大| 亚洲色婷婷六月亚洲婷婷6月| 国产v亚洲v天堂无码网站| 久久久久亚洲AV无码永不| 亚洲偷自精品三十六区| 精品国产亚洲第一区二区三区 | 亚洲人成电影福利在线播放|