每個細胞的基因序列
你身體裡的每個細胞都包含相同的基因序列,但每個細胞只表達其中的一部分基因。這些細胞特定的基因表達模式,確保了大腦細胞和皮膚細胞的不同,部分是由基因的三維結構決定的,這個結構控制了每個基因的可接近性。
MIT的化學家們的新方法
麻省理工學院 (MIT) 的化學家們現在提出了一種新的方法來確定這些三維基因組結構,使用生成式人工智慧。他們的技術可以在幾分鐘內預測數千種結構,這比現有的實驗方法快得多。
研究的目的
使用這種技術,研究人員可以更容易地研究基因組的三維組織如何影響個別細胞的基因表達模式和功能。
麻省理工學院的副教授張斌(Bin Zhang)表示:“我們的目標是從基因序列預測三維基因組結構。現在我們可以做到這一點,使這項技術與尖端實驗技術相媲美,這真的為我們打開了許多有趣的機會。”
從序列到結構
在細胞核內,DNA和蛋白質形成一種叫做染色質的複雜結構,這種結構有多個組織層次,使細胞能夠將2米長的DNA壓縮到只有一百分之一毫米直徑的細胞核中。長長的DNA鏈纏繞在叫做組蛋白的蛋白質上,形成類似珠子串的結構。
表觀遺傳修飾
稱為表觀遺傳修飾的化學標記可以附著在DNA的特定位置,這些標記因細胞類型而異,影響染色質的折疊和附近基因的可接近性。這些染色質構象的差異有助於決定不同細胞類型中哪些基因被表達,或在特定細胞內的不同時間。
過去的研究方法
在過去20年中,科學家們開發了實驗技術來確定染色質結構。一種廣泛使用的技術叫做Hi-C,它通過將細胞核內相鄰的DNA鏈連接在一起來工作。研究人員可以通過將DNA撕成許多小片段並進行測序,來確定哪些片段彼此靠近。
這種方法可以用於大量細胞,計算染色質的一個區域的平均結構,或用於單個細胞以確定該特定細胞內的結構。然而,Hi-C和類似技術需要大量的勞動力,從一個細胞生成數據大約需要一周的時間。
克服限制的方法
為了克服這些限制,張教授和他的學生們開發了一個模型,利用最近在生成式人工智慧方面的進展,創造出一種快速、準確的方法來預測單個細胞中的染色質結構。他們設計的AI模型可以快速分析DNA序列並預測這些序列在細胞中可能產生的染色質結構。
深度學習的優勢
張教授表示:“深度學習在模式識別方面非常出色。它使我們能夠分析非常長的DNA片段,數千個碱基對,並找出這些DNA碱基對中編碼的重要信息。”
ChromoGen模型
研究人員創建的ChromoGen模型有兩個組件。第一個組件是一個深度學習模型,學會了“閱讀”基因組,分析編碼在基因序列中的信息和染色質可接近性數據,後者是廣泛可用且特定於細胞類型的。
第二個組件是一個生成式AI模型,預測物理上準確的染色質構象,這個模型是基於超過1100萬個染色質構象進行訓練的。這些數據來自於對16個人類B淋巴細胞進行Dip-C(Hi-C的一種變體)實驗生成的。
結構預測的整合
當這兩個組件結合時,第一個組件告訴生成模型細胞類型特定的環境如何影響不同染色質結構的形成,這種方案有效地捕捉了序列-結構關係。對於每個序列,研究人員使用他們的模型生成許多可能的結構。因為DNA是一種非常無序的分子,所以單一的DNA序列可以產生許多不同的構象。
快速分析的優勢
一旦訓練完成,這個模型可以在比Hi-C或其他實驗技術更快的時間範圍內生成預測。
Schuette表示:“你可能需要花六個月的時間進行實驗來獲得某一細胞類型的幾十種結構,而使用我們的模型,你可以在20分鐘內在特定區域生成一千種結構,只需一個GPU。”
模型的準確性
在訓練完他們的模型後,研究人員用它生成了超過2000個DNA序列的結構預測,然後將這些預測與實驗確定的結構進行比較。他們發現模型生成的結構與實驗數據中的結構相同或非常相似。
張教授表示:“我們通常會查看每個序列的數百或數千個構象,這能合理地代表特定區域可能擁有的結構多樣性。如果你在不同的細胞中多次重複實驗,你很可能會得到非常不同的構象。這就是我們的模型試圖預測的。”
模型的應用潛力
研究人員還發現,這個模型能夠對它未經訓練的其他細胞類型的數據做出準確的預測。這表明該模型可以用於分析不同細胞類型之間的染色質結構差異,以及這些差異如何影響它們的功能。該模型還可以用於探索單個細胞內可能存在的不同染色質狀態,以及這些變化如何影響基因表達。
另一個可能的應用是探索特定DNA序列中的突變如何改變染色質構象,這可能有助於了解這些突變如何導致疾病。
張教授表示:“我認為我們可以用這種模型來解決許多有趣的問題。”
研究人員已經將所有數據和模型提供給希望使用它的其他人。
這項研究得到了美國國家衛生研究院(National Institutes of Health)的資助。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!