生成式人工智慧的進步
隨著生成式人工智慧模型的能力增強,你可能已經看到它們如何將簡單的文字提示轉換成超真實的圖像,甚至延伸的影片片段。
最近,生成式人工智慧在幫助化學家和生物學家探索靜態分子(如蛋白質和DNA)方面顯示出潛力。例如,像AlphaFold這樣的模型可以預測分子結構,以加速藥物發現,而麻省理工學院(MIT)協助的“RFdiffusion”則可以幫助設計新的蛋白質。不過,一個挑戰是分子不斷運動和顫動,這在構建新蛋白質和藥物時非常重要。使用物理學在電腦上模擬這些運動的技術稱為分子動力學,這可能非常昂貴,需要在超級電腦上進行數十億次的時間步驟。
MDGen的發展
為了更有效地模擬這些行為,MIT計算機科學與人工智慧實驗室(CSAIL)和數學系的研究人員開發了一個從先前數據中學習的生成模型。這個名為MDGen的系統可以接收一個3D分子的畫面,並像影片一樣模擬接下來會發生什麼,連接不同的靜態畫面,甚至填補缺失的畫面。透過按下分子的“播放按鈕”,這個工具可能幫助化學家設計新分子,並仔細研究他們的癌症和其他疾病藥物原型如何與其意圖影響的分子結構互動。
研究者的看法
共同第一作者Bowen Jing SM ’22表示,MDGen是一個早期的概念驗證,但它暗示了一個令人興奮的新研究方向。“早期的生成式人工智慧模型產生的影片相對簡單,比如一個人眨眼或一隻狗搖尾巴,”Jing說,他是CSAIL的博士生。“幾年後,我們現在有像Sora或Veo這樣的驚人模型,可以在各種有趣的方式中發揮作用。我們希望在分子世界中灌輸類似的願景,讓動態軌跡成為影片。例如,你可以給模型第一幀和第十幀,它會動畫化中間的內容,或者它可以從分子影片中去除噪音並猜測隱藏的內容。”
MDGen的創新
研究人員表示,MDGen代表了一種從以前的生成式人工智慧工作中轉變的範式,使其能夠有更廣泛的應用。以前的方法是“自回歸”的,這意味著它們依賴於前一幀靜態畫面來生成下一幀,從第一幀開始創建影片序列。相對而言,MDGen則是並行生成幀,並使用擴散技術。這意味著MDGen可以用來連接端點的幀,或“上採樣”低幀率的軌跡,除了按下初始幀的播放按鈕。
實驗結果
這項工作在去年12月的神經資訊處理系統會議(NeurIPS)上發表。去年夏天,它因其潛在的商業影響而在國際機器學習會議的ML4LMS研討會上獲獎。
在實驗中,Jing和他的同事發現MDGen的模擬與直接運行物理模擬相似,但生成軌跡的速度快了10到100倍。
團隊首先測試了他們模型的能力,從一個3D分子的畫面生成接下來的100納秒。他們的系統將這些生成分成連續的10納秒區塊來達到這個時間。團隊發現MDGen能夠與基準模型的準確性競爭,同時在大約一分鐘內完成影片生成過程,而基準模型模擬相同動態則需要三小時。
模擬的進一步發展
當給予一個納秒序列的第一幀和最後一幀時,MDGen也能模擬中間的步驟。研究者的系統在超過100,000個不同的預測中展示了一定的真實感:它模擬的分子軌跡比基準模型在短於100納秒的片段中更可能。在這些測試中,MDGen還顯示出對未見過的肽的概括能力。
MDGen的能力還包括在幀內模擬幀,將每個納秒之間的步驟“上採樣”,以更好地捕捉快速的分子現象。它甚至可以“修復”分子的結構,恢復被移除的信息。這些功能最終可能被研究人員用來根據分子不同部分應該如何運動的規範來設計蛋白質。
未來的展望
Jing和共同第一作者Hannes Stärk表示,MDGen是朝著更有效生成分子動力學的早期進展的跡象。不過,他們缺乏數據,使得這些模型在設計藥物或分子時無法立即產生影響。“目前,我們正在使用玩具系統,”Stärk說,他也是CSAIL的博士生。“為了增強MDGen的預測能力以建模蛋白質,我們需要在當前架構和可用數據的基礎上進行改進。我們尚未擁有這類模擬的YouTube級別資料庫,因此我們希望開發一種獨立的機器學習方法,加快我們模型的數據收集過程。”
結論
目前,MDGen為建模肉眼不可見的分子變化提供了一條令人鼓舞的前進道路。化學家還可以利用這些模擬深入研究癌症或結核病等疾病的藥物原型行為。
“從物理模擬中學習的機器學習方法代表了科學AI的一個新興前沿,”MIT西蒙斯數學教授、CSAIL首席研究員及論文的資深作者Bonnie Berger說。“MDGen是一個多用途的建模框架,將這兩個領域連接起來,我們非常高興能分享我們在這個方向上的早期模型。”
“在分子狀態之間採樣現實的轉換路徑是一個重大挑戰,”另一位資深作者Tommi Jaakkola說,他是MIT的電機工程與計算機科學教授,並且是CSAIL的首席研究員。“這項早期工作顯示了我們如何開始通過將生成建模轉向完整的模擬運行來解決這些挑戰。”
來自生物信息學領域的研究人員對這個系統的能力表示讚譽,認為它能夠模擬分子轉變。“MDGen將分子動力學模擬建模為結構嵌入的聯合分佈,捕捉分子在離散時間步驟之間的運動,”查爾默斯科技大學的副教授Simon Olsson說,他並未參與這項研究。“利用掩蔽學習目標,MDGen使得過渡路徑採樣等創新用例成為可能,並將其與連接亞穩定相的軌跡進行類比。”
研究人員對MDGen的工作部分得到了美國國立一般醫學科學研究所、美國能源部、國家科學基金會、藥物發現與合成機器學習聯盟、阿卜杜勒·拉提夫·賈米爾健康機器學習診所、國防威脅減少局和國防高級研究計劃局的支持。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!