透過基因表達變化了解細胞功能
研究人員透過研究基因表達的變化,了解細胞在分子層面上的運作,這有助於他們理解某些疾病的發展。
不過,人類大約有20,000個基因,這些基因之間的相互影響非常複雜,因此即使知道要針對哪些基因群體,這也是一個非常困難的問題。此外,基因之間會以模組的方式相互調節。
麻省理工學院的研究新方法
麻省理工學院 (MIT) 的研究人員現在已經開發出理論基礎,能夠識別將基因有效地聚合成相關群體的最佳方法,這樣他們就能學習許多基因之間的因果關係。
重要的是,這種新方法僅使用觀察數據來達成這一點。這意味著研究人員不需要進行昂貴且有時無法實現的干預實驗來獲取推斷因果關係所需的數據。
從長遠來看,這項技術可能幫助科學家更準確和有效地識別潛在的基因目標,以誘導某些行為,並可能使他們能夠為患者開發精確的治療方案。
麻省理工學院的研究生張家琦 (Jiaqi Zhang) 說:「在基因組學中,了解細胞狀態背後的機制非常重要。但細胞有多層次的結構,因此總結的層次也非常重要。如果你找到了正確的方式來聚合觀察數據,你所學到的系統信息應該會更具可解釋性和實用性。」
觀察數據的學習
研究人員所要解決的問題是學習基因的程序。這些程序描述了哪些基因一起運作以調節其他基因在生物過程中的功能,例如細胞發展或分化。
由於科學家無法有效地研究所有20,000個基因的相互作用,他們使用一種稱為因果解開 (causal disentanglement) 的技術來學習如何將相關的基因群體組合成一個表示,這樣可以有效地探索因果關係。
在之前的研究中,研究人員展示了如何在有干預數據的情況下有效地做到這一點,這些數據是通過擾動網絡中的變量獲得的。
但進行干預實驗通常成本高昂,並且在某些情況下,這些實驗要麼不道德,要麼技術不夠好,無法成功進行干預。
僅使用觀察數據,研究人員無法比較基因在干預前後的變化,以了解基因群體如何一起運作。
張家琦表示:「大多數因果解開的研究假設可以進行干預,因此不清楚僅用觀察數據能解開多少信息。」
層次化的表示法
麻省理工學院的研究人員開發了一種更通用的方法,使用機器學習算法來有效識別和聚合觀察到的變量群體,例如基因,僅使用觀察數據。
他們可以使用這項技術來識別因果模組,並重建因果機制的準確表示。「雖然這項研究的動機是為了解釋細胞程序,但我們首先必須開發新的因果理論,以理解從觀察數據中可以學到什麼,不能學到什麼。有了這個理論,我們可以在未來的工作中將我們的理解應用於基因數據,識別基因模組及其調節關係。」Uhler教授說。
研究人員使用統計技術計算每個變量得分的雅可比 (Jacobian) 的變異數。對於不影響任何後續變量的因果變量,其變異數應為零。
研究人員以層次結構重建表示,首先移除底層變量中變異數為零的變量。然後,他們逐層向後工作,移除變異數為零的變量,以確定哪些變量或基因群體是相互連接的。
張家琦表示:「識別變異數為零的變量很快就變成了一個組合目標,這相當難以解決,因此推導出一個能夠解決它的高效算法是一個重大挑戰。」
最終,他們的方法輸出了一個抽象的觀察數據表示,具有層次相互連接的變量,準確總結了潛在的因果結構。
每個變量代表一組一起運作的基因,而兩個變量之間的關係則代表一組基因如何調節另一組基因。他們的方法有效捕捉了用於確定每層變量的所有信息。
在證明他們的技術在理論上是可靠的之後,研究人員進行了模擬,顯示該算法可以僅使用觀察數據有效地解開有意義的因果表示。
未來,研究人員希望將這項技術應用於現實世界的基因學應用。他們還希望探索這種方法如何在某些干預數據可用的情況下提供額外的見解,或幫助科學家理解如何設計有效的基因干預。未來,這種方法可能幫助研究人員更有效地確定哪些基因在同一程序中一起運作,這有助於識別能夠針對這些基因治療某些疾病的藥物。
這項研究部分由美國海軍研究辦公室 (U.S. Office of Naval Research)、國家衛生研究院 (National Institutes of Health)、美國能源部 (U.S. Department of Energy)、西蒙斯研究獎 (Simons Investigator Award)、麻省理工學院和哈佛大學的艾瑞克與溫迪·施密特中心 (Eric and Wendy Schmidt Center)、麻省理工學院的高級本科研究機會計劃 (Advanced Undergraduate Research Opportunities Program) 以及蘋果公司 (Apple Inc.) 的人工智慧/機器學習博士獎學金資助。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!