蛋白質是經過數十億年演化而成的重要分子機器,負責執行維持生命的關鍵功能,這些功能被編碼在它們的序列中,並透過其三維結構顯現出來。儘管實驗和計算工具有所進步,解碼蛋白質的功能機制仍然是生物學中的一大挑戰。雖然 AlphaFold 和類似模型已經徹底改變了結構預測,但結構知識與功能理解之間的差距依然存在,這一問題因未標註的蛋白質序列數量激增而更加複雜。傳統工具依賴於進化相似性,限制了它們的應用範圍。新興的蛋白質語言模型則提供了希望,利用深度學習來解碼蛋白質的「語言」,但有限、多樣且豐富的上下文訓練數據限制了它們的效果。
來自西湖大學和南開大學的研究人員開發了 Evola,這是一個擁有 800 億參數的多模態蛋白質語言模型,旨在通過自然語言對話來解釋蛋白質的分子機制。Evola 將蛋白質語言模型 (PLM) 作為編碼器,將大型語言模型 (LLM) 作為解碼器,並整合了一個對齊模塊,使得蛋白質功能預測更加精確。Evola 在一個前所未有的數據集上進行訓練,這個數據集包含了 5.46 億個蛋白質問題-答案對和 1500 億個標記,利用檢索增強生成 (RAG) 和直接偏好優化 (DPO) 來提高回應的相關性和質量。使用新穎的指導回應空間 (IRS) 框架進行評估,Evola 提供了專家級的見解,推進了蛋白質組學研究。
Evola 是一個多模態生成模型,旨在回答功能性蛋白質問題。它將蛋白質特定知識與 LLM 結合,提供準確且具上下文意識的回應。Evola 擁有一個固定的蛋白質編碼器、一個可訓練的序列壓縮和對齊器,以及一個預訓練的 LLM 解碼器。它利用 DPO 根據 GPT 評分的偏好進行微調,並使用 Swiss-Prot 和 ProTrek 數據集來提高回應的準確性。應用範圍包括蛋白質功能註釋、酶分類、基因本體、亞細胞定位和疾病關聯。Evola 提供兩個版本:一個是 100 億參數的模型,另一個是仍在訓練中的 800 億參數模型。
這項研究介紹了 Evola,一個先進的 800 億參數多模態蛋白質語言模型,旨在通過自然語言對話來解釋蛋白質的功能。Evola 將蛋白質語言模型作為編碼器,將大型語言模型作為解碼器,並設有一個中間模塊用於壓縮和對齊。它利用 RAG 來整合外部知識,並使用 DPO 來提高回應質量,根據偏好信號來優化輸出。使用 IRS 框架進行評估,Evola 能夠生成準確且具上下文相關性的蛋白質功能見解,從而推進蛋白質組學和功能基因組學的研究。
結果顯示,Evola 在蛋白質功能預測和自然語言對話任務中超越了現有模型。Evola 在多樣化的數據集上進行評估,並在生成準確、具上下文敏感性的蛋白質相關問題的答案方面達到了最先進的性能。使用 IRS 框架進行基準測試顯示其高精度、可解釋性和回應的相關性。質性分析突顯了 Evola 解決細微功能查詢的能力,並生成與專家策劃知識相當的蛋白質註釋。此外,消融研究確認了其訓練策略的有效性,包括檢索增強生成和直接偏好優化,這些策略在提高回應質量和與生物學上下文的一致性方面發揮了重要作用。這使 Evola 成為一個強大的蛋白質組學工具。
總結來說,Evola 是一個擁有 800 億參數的生成性蛋白質語言模型,旨在解碼蛋白質的分子語言。通過自然語言對話,它將蛋白質序列、結構和生物功能連結起來。Evola 的創新之處在於它在一個由 AI 合成的數據集上進行訓練,該數據集包含 5.46 億個蛋白質問題-答案對,涵蓋了 1500 億個標記,這在規模上是前所未有的。利用 DPO 和 RAG,它提高了回應質量並整合了外部知識。使用 IRS 進行評估,Evola 提供了專家級的見解,推進了蛋白質組學和功能基因組學,同時提供了一個強大的工具來解開蛋白質及其生物角色的分子複雜性。
查看論文。這項研究的所有榮譽都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ ML SubReddit。
🚨 免費即將舉行的 AI 網路研討會 (2025年1月15日):使用合成數據和評估智慧提升 LLM 準確性–加入這個研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!