蛋白質是幾乎所有生物過程中最重要的組成部分,從催化反應到在細胞內傳遞信號。儘管像 AlphaFold 這樣的進展已經改變了我們預測靜態蛋白質結構的能力,但仍然存在一個基本挑戰:理解蛋白質的動態行為。蛋白質自然以不斷變換的構象組合存在,這些構象是其功能的基礎。傳統的實驗技術,例如冷凍電子顯微鏡或單分子研究,只能捕捉這些運動的快照,通常需要大量的時間和資源。同樣,分子動力學 (MD) 模擬提供了蛋白質行為的詳細見解,但計算成本很高。因此,尋找一種高效且準確的蛋白質動態建模方法是非常重要的,特別是在藥物發現和蛋白質工程等領域,理解這些運動可以幫助我們更好地設計策略。
微軟研究人員推出了 BioEmu-1,這是一種深度學習模型,旨在每小時生成數千個蛋白質結構。BioEmu-1 不僅依賴傳統的 MD 模擬,而是使用基於擴散的生成框架來模擬蛋白質構象的平衡集合。該模型結合了靜態結構數據庫的數據、大量的 MD 模擬和蛋白質穩定性的實驗測量。這種方法使 BioEmu-1 能夠生成多樣的蛋白質結構,捕捉到大規模的重排和微妙的構象變化。重要的是,該模型以計算效率生成這些結構,使其在日常使用中變得可行,提供了一種新的工具來研究蛋白質動態,而不會造成過大的計算需求。
技術細節
BioEmu-1 的核心在於其將先進的深度學習技術與蛋白質生物物理學的成熟原則相結合。它首先使用來自 AlphaFold evoformer 的方法對蛋白質的序列進行編碼。然後,這個編碼通過去噪擴散模型進行處理,該模型“反轉”一個受控的噪聲過程,從而生成一系列合理的蛋白質構象。一個關鍵的技術改進是使用二階積分方案,這使得模型能夠在更少的步驟中達到高保真度的輸出。這種效率意味著,在單個 GPU 上,可以在幾分鐘到幾小時內生成多達 10,000 個獨立的蛋白質結構,具體取決於蛋白質的大小。
該模型使用多種異質數據來源進行精心校準。通過在 MD 模擬數據和蛋白質穩定性的實驗測量上進行微調,BioEmu-1 能夠以接近實驗精度的準確性估算不同構象的相對自由能。這種對多樣數據類型的深思熟慮的整合不僅提高了模型的可靠性,還使其能夠適應各種蛋白質和條件。
結果與見解
BioEmu-1 已通過與傳統 MD 模擬和實驗基準的比較進行評估。該模型展示了其捕捉各種蛋白質構象變化的能力。例如,它準確地重現了酶如腺苷酸激酶的開關轉變,該蛋白質在不同功能狀態之間轉換。它還有效地建模了更微妙的變化,例如 Ras p21 蛋白中的局部展開事件,這在細胞信號傳遞中起著關鍵作用。此外,BioEmu-1 能夠揭示瞬態的“隱蔽”結合口袋,這些口袋通常難以用傳統方法檢測,提供了蛋白質表面更細緻的圖像,這對藥物設計有幫助。
從量化的角度來看,BioEmu-1 生成的自由能景觀與大量的 MD 模擬相比,平均絕對誤差小於 1 kcal/mol。此外,計算成本顯著較低——通常對於一個典型的實驗需要的 GPU 時間少於一小時,而 MD 模擬有時需要數千小時。這些結果表明,BioEmu-1 可以作為探索蛋白質動態的有效且高效的工具,提供既精確又可及的見解。
結論
BioEmu-1 標誌著蛋白質動態計算研究的一次重要進展。通過將多樣的數據來源與深度學習框架相結合,它提供了一種生成詳細蛋白質集合的實用方法,成本和時間僅為傳統 MD 模擬的一小部分。這個模型不僅增強了我們對蛋白質如何根據不同條件改變形狀的理解,還支持在藥物發現和蛋白質工程中做出更明智的決策。
雖然 BioEmu-1 目前專注於特定條件下的單一蛋白質鏈,但其設計為未來的擴展奠定了基礎。隨著數據的增加和進一步的改進,該模型最終可能會適應處理更複雜的系統,例如膜蛋白或多蛋白複合體,並納入其他環境參數。在目前的形式下,BioEmu-1 為研究人員提供了一種平衡且高效的工具,深入了解影響蛋白質功能的微妙動態。
總之,BioEmu-1 是現代深度學習與傳統生物物理方法的深思熟慮的整合。它反映了對解決蛋白質科學中長期挑戰的謹慎、周到的方法,並為未來的研究和實際應用提供了有希望的途徑。
查看論文和技術細節。所有研究的功勞都歸於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,別忘了加入我們的 80k+ ML SubReddit。
🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!