了解蛋白質序列及其功能一直是蛋白質研究中的一個挑戰。蛋白質常被形容為生命的基本構建塊,由長而複雜的序列組成,這些序列決定了它們在生物系統中的角色。儘管計算生物學有了進步,但要以有意義的方式理解這些序列仍然是一項艱巨的任務。傳統的蛋白質分析方法既耗時又昂貴。即使最近技術有所進展,研究人員仍然難以映射自然界中蛋白質結構的多樣性及其功能變化。可用數據與實際見解之間的差距仍然是開發新療法、生物工程解決方案及應對健康和環境科學更廣泛挑戰的一個重要障礙。因此,迫切需要一種全面的工具,以前所未有的規模來分析蛋白質。
EvolutionaryScale推出了ESM Cambrian,這是一種新的語言模型,專門針對蛋白質序列進行訓練,能夠捕捉地球上生命的多樣性。ESM Cambrian在生物信息學上邁出了重要一步,利用機器學習技術來更好地理解蛋白質的結構和功能。該模型已在數百萬個蛋白質序列上進行訓練,涵蓋了廣泛的生物多樣性,以揭示蛋白質中的潛在模式和關係。就像大型語言模型改變了我們對人類語言的理解一樣,ESM Cambrian專注於對生物過程至關重要的蛋白質序列。它旨在成為一個多功能模型,能夠預測結構、功能,並促進不同物種和蛋白質家族的新發現。
技術細節
ESM Cambrian的技術基礎與其目標同樣令人印象深刻。EvolutionaryScale發布了不同版本的模型,包括ESM C 300M和ESM C 600M,並將權重公開給研究社群。這些模型在規模和實用性之間取得了平衡,使科學家能夠在不需要非常大型模型基礎設施的情況下進行強大的預測。最大的變體ESM C 6B可在EvolutionaryScale Forge上用於學術研究,也可在AWS Sagemaker上用於商業用途,並計劃很快在NVIDIA BioNemo上推出。這些平台使學術和工業用戶都能輕鬆訪問這個工具。
該模型基於變壓器架構,使用自注意力機制來識別蛋白質序列中的複雜關係,使其非常適合預測蛋白質摺疊或發現新功能等任務。ESM Cambrian的一個主要優點是其能夠在不同蛋白質之間進行知識的概括,這可能加速新藥物和合成生物學應用的發現。
為了實現其高性能,ESM Cambrian經過了兩個階段的訓練。在第一階段,模型在前100萬個訓練步驟中使用了512的上下文長度,其中元基因組數據佔訓練數據集的64%。在第二階段,模型進行了額外的500,000個訓練步驟,這期間上下文長度增加到2048,元基因組數據的比例減少到37.5%。這種分階段的方法使模型能夠有效地從多樣的蛋白質序列中學習,提高了其在不同蛋白質之間進行概括的能力。
早期結果與見解
ESM Cambrian的早期測試顯示出令人鼓舞的結果。該模型預測蛋白質序列的結構和功能的能力可與傳統實驗方法相媲美,並在時間和成本上提供了顯著的節省。使用Rao等人的方法進行評估,測量蛋白質三級結構的無監督學習,通過接觸圖進行。使用邏輯回歸來識別接觸,並對長度為L的蛋白質的前L個接觸的精確度(P@L)進行評估,序列分離為6個或更多殘基。平均P@L是在一組時間上保留的蛋白質結構上計算的(截止日期為2023年5月1日),用於縮放法則,並在CASP15基準上進行性能評估。初步見解表明,ESM Cambrian在不同研究較少的蛋白質家族中表現良好,幫助研究人員揭示序列中隱藏的關係,這些關係在其他情況下難以分析。其預測準確性還為酶工程開啟了新可能性,因為理解蛋白質活性的微妙差異至關重要。
ESM Cambrian在AWS Sagemaker和NVIDIA BioNemo等平台上的可用性將使商業用戶更容易將機器學習工具整合到現有工作流程中。EvolutionaryScale決定公開ESM C 300M和ESM C 600M的權重,反映了對開放科學的承諾,鼓勵合作以更好地理解地球上生命的基本原理。
結論
EvolutionaryScale發布的ESM Cambrian標誌著計算生物學和蛋白質科學的一個重要里程碑。通過提供一種能夠在捕捉地球生物多樣性規模上分析蛋白質序列的模型,EvolutionaryScale展示了在生物研究中應用人工智慧的潛力,並為加速發現和創新開啟了無數機會。ESM Cambrian將在蛋白質工程、藥物發現和深入理解生物系統方面發揮關鍵作用。隨著科學界開始探索這一模型的應用,顯然蛋白質研究的未來正在演變,像ESM Cambrian這樣的工具引領著這一進程。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!