在全球健康面臨持續的疫情威脅時,先進的生物監測和病原體檢測系統的需求變得越來越明顯。傳統的基因組分析方法在某些情況下雖然有效,但在大規模健康監測的複雜性上常常面臨挑戰。一個主要的挑戰是如何識別和理解污水等環境中的基因組多樣性,因為這些環境中含有豐富的微生物和病毒的DNA和RNA。生物研究的快速進展進一步強調了可擴展、準確且可解釋的模型在分析大量元基因組數據中的重要性,這有助於預測和減輕健康危機。
來自南加州大學 (University of Southern California)、Prime Intellect 和核酸觀測站 (Nucleic Acid Observatory) 的研究人員推出了METAGENE-1,這是一個元基因組基礎模型。這個擁有70億個參數的自回歸變壓器模型專門設計用來分析元基因組序列。METAGENE-1的訓練數據集包含超過1.5萬億個來自人類污水樣本的DNA和RNA基本對,利用下一代測序技術和量身定制的字節對編碼 (BPE) 標記策略來捕捉這些數據集中存在的複雜基因組多樣性。該模型是開源的,鼓勵合作和進一步的研究進展。
技術亮點和優勢
METAGENE-1的架構借鑒了現代變壓器模型,包括GPT和Llama系列。這是一個僅使用解碼器的變壓器,使用因果語言建模目標來根據前面的標記預測序列中的下一個標記。其主要特點包括:
- 數據集多樣性:訓練數據涵蓋來自數萬種物種的序列,代表了人類污水中的微生物和病毒多樣性。
- 標記策略:使用BPE標記化使模型能夠高效處理新型核酸序列。
- 訓練基礎設施:先進的分佈式訓練設置確保了在硬體限制下對大型數據集的穩定訓練。
- 應用:METAGENE-1支持病原體檢測、異常檢測和物種分類等任務,對於元基因組研究和公共健康研究非常有價值。
這些特點使METAGENE-1能夠生成高質量的序列嵌入並適應特定任務,增強了其在基因組學和公共健康領域的實用性。
結果和見解
METAGENE-1的能力通過多個基準進行評估,顯示出顯著的性能。在基於人類污水樣本的病原體檢測基準中,該模型的平均馬修斯相關係數 (MCC) 為92.96,顯著超過其他模型。此外,METAGENE-1在異常檢測任務中表現出色,有效區分元基因組序列與其他基因組數據來源。
在基於嵌入的基因組分析中,METAGENE-1在Gene-MTEB基準上表現優異,達到全球平均分數0.59。這一表現強調了其在零樣本和微調場景中的適應性,強化了其在處理複雜和多樣的元基因組數據中的價值。
結論
METAGENE-1代表了人工智慧和元基因組學的深思熟慮的整合。通過利用變壓器架構,該模型為生物監測和疫情準備提供了實用的解決方案。其開源發布邀請研究人員合作和創新,推進基因組科學的發展。隨著與新興病原體和全球疫情相關的挑戰持續存在,METAGENE-1展示了技術如何在有效和負責任地解決公共健康問題中發揮關鍵作用。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!