預測RNA的三維結構對於理解其生物功能、推進RNA靶向藥物發現和設計合成生物學應用至關重要。然而,RNA的結構靈活性和實驗解決數據的有限可用性帶來挑戰。儘管RNA在基因調控中的重要性,僅有RNA的結構在數據庫中所占比例不到1%,而傳統方法如X射線晶體學和冷凍電子顯微鏡則速度緩慢且資源密集。計算技術,包括基於模板的方法如ModeRNA和自創方法如FARFAR2,雖已推進RNA建模,但往往需要更多的速度和數據可用性。深度學習模型已成為變革性工具,利用RNA序列數據。
最近的基於深度學習的方法整合了多序列比對(MSAs)和二級結構約束,以增強RNA三維結構預測。DeepFoldRNA和trRosettaRNA等方法利用MSAs推導幾何特徵以進行基於能量的建模,而像AlphaFold3和RoseTTAFoldNA這樣的端到端架構則直接從序列預測三維結構。儘管基於MSA的方法提供了高準確性,但由於需要進行大量數據庫搜索,因此計算成本較高。DRFold等替代方法則僅依賴單一序列,提供更快的結果,但精確度稍低。未來的發展旨在將單序列模型的速度與基於MSA技術的準確性相結合,以實現更高效的預測。
RhoFold+是由多個機構的研究人員開發的先進深度學習框架,包括香港中文大學、上海Zelixir生物科技有限公司、深圳先進技術研究院、復旦大學、上海人工智能實驗室、哈佛大學、麻省理工學院、哈佛大學布羅德研究所、亞利桑那州立大學和綜合生命科學。RhoFold+旨在準確預測de novo RNA三維結構,利用在2300多萬條序列上預訓練的RNA語言模型,並結合多序列比對(MSAs)來解決數據限制。通過RNA-Puzzles和CASP15等基準進行驗證,它能預測二級結構和螺旋間角度,為RNA生物學和功能研究提供廣泛的應用。
RhoFold+平台結合了多種RNA結構預測方法。它使用Infernal和rMSA等工具整合MSA特徵,捕捉RNA序列中的共同進化信息。RNA-FM語言模型基於類似BERT的變壓器架構,訓練於來自RNAcentral的大型非編碼RNA序列數據集。該模型使用自監督學習,預測序列中被遮蔽的核苷酸。RhoFold+整合了一個結構預測模塊,使用幾何感知注意力機制(IPA)進行三維結構的精煉。該模型使用多種損失函數進行訓練,包括MLM、距離損失和二級結構損失,以實現準確的RNA結構預測。
RhoFold+是一種基於RNA特定洞察和數據的計算工具,用於RNA三維結構預測。它利用大型RNA語言模型(RNA-FM)進行序列嵌入,並利用MSA進行結構建模。該模型的性能經過嚴格基準測試,顯示出比現有方法在RNA-Puzzles和CASP15挑戰中的準確性更高,平均RMSD為4.02 Å。RhoFold+在結構預測方面表現優異,即使對於未見過的序列,並且預測時間比其他方法更快。它在各種RNA結構上進行了測試,在多個驗證場景中始終實現高準確率。
總之,RhoFold+是一種基於深度學習的RNA三維結構預測工具,整合了一個在2300萬條序列上預訓練的RNA語言模型。它提供了一種完全自動化、可微分的方法來進行RNA結構預測,而無需專業知識或計算密集的過程。RhoFold+在準確性方面超越了現有方法,特別是對於單鏈RNA,並且在預測RNA的三維和二級結構方面都非常有效。它能夠在不同數據集之間進行泛化,並預測未見過的RNA結構。儘管具有其優勢,但仍需解決一些挑戰,包括結構多樣性數據的有限性、大型RNA序列的困難,以及與配體或蛋白質的相互作用。未來的改進可能會解決這些限制。
查看論文。這項研究的所有功勞都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,並加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你會喜歡我們的通訊。別忘了加入我們的55k+ ML SubReddit。
[免費AI虛擬會議] SmallCon:免費虛擬GenAI會議,主辦方包括Meta、Mistral、Salesforce、Harvey AI等。請於12月11日參加這一免費虛擬活動,了解如何從Meta、Mistral AI、Salesforce、Harvey AI、Upstage、Nubank、Nvidia、Hugging Face等AI開拓者那裡構建大型模型所需的條件。