用人工智慧預測抗體結構
研究人員利用一種稱為大型語言模型的人工智慧技術,在預測蛋白質結構方面取得了很大進展。然而,這種方法對抗體的預測效果不佳,部分原因是抗體這種蛋白質的變異性非常高。
為了解決這個問題,麻省理工學院 (MIT) 的研究人員開發了一種計算技術,使大型語言模型能更準確地預測抗體結構。他們的研究可以幫助科學家從數百萬種可能的抗體中找出可以用來治療 SARS-CoV-2 和其他傳染病的抗體。
麻省理工學院數學系的西蒙斯教授 (Bonnie Berger) 說:「我們的方法讓我們能夠擴展,而其他方法則無法做到,這樣我們就能在大海撈針中找到幾根針。如果我們能幫助制藥公司避免用錯藥物進入臨床試驗,那將能節省很多錢。」
建模抗體的變異性
蛋白質是由長鏈氨基酸組成的,這些氨基酸可以折疊成無數種可能的結構。近年來,使用像 AlphaFold 這樣的人工智慧程式預測這些結構變得更加容易。許多這些程式,如 ESMFold 和 OmegaFold,都是基於大型語言模型,這些模型最初是為了分析大量文本而開發的,讓它們能學會預測序列中的下一個單詞。這種方法同樣可以用於蛋白質序列,通過學習不同氨基酸模式形成的蛋白質結構。
然而,這種技術對抗體的預測並不總是有效,特別是在抗體的一個稱為超變異區的部分。抗體通常有 Y 字形的結構,這些超變異區位於 Y 的尖端,負責檢測和結合外來蛋白質,也就是抗原。Y 的底部提供結構支撐,幫助抗體與免疫細胞互動。
超變異區的長度各不相同,但通常少於 40 個氨基酸。據估計,人類免疫系統可以通過改變這些氨基酸的序列產生多達 1 兆種不同的抗體,這有助於確保身體能對各種潛在抗原作出反應。這些序列的演化限制與其他蛋白質序列不同,因此大型語言模型很難準確預測它們的結構。
麻省理工學院的生物工程副教授布萊恩·布萊森 (Bryan Bryson) 也是這篇論文的共同作者之一,該論文本週發表在《美國國家科學院院刊》。研究人員還包括杜克大學的助理教授羅希特·辛格 (Rohit Singh) 和 Chiho Im ’22。來自賽諾菲 (Sanofi) 和蘇黎世聯邦理工學院 (ETH Zurich) 的研究人員也參與了這項研究。
抗體結構的預測
為了建模這些超變異區,研究人員創建了兩個模組,基於現有的蛋白質語言模型。其中一個模組在約 3,000 個抗體結構的超變異序列上進行訓練,讓它學會哪些序列傾向於生成相似的結構。另一個模組則訓練於約 3,700 個抗體序列與它們對三種不同抗原的結合強度之間的關聯數據。
最終的計算模型稱為 AbMap,可以根據氨基酸序列預測抗體結構和結合強度。為了展示這個模型的實用性,研究人員用它來預測能強效中和 SARS-CoV-2 病毒刺突蛋白的抗體結構。
研究人員從一組預測能結合這個目標的抗體開始,然後通過改變超變異區生成數百萬種變體。他們的模型能夠識別出最成功的抗體結構,準確度遠高於基於大型語言模型的傳統蛋白質結構模型。
接著,研究人員將抗體進一步分組,根據結構相似性選擇每個群組中的抗體進行實驗,並與賽諾菲的研究人員合作。實驗結果顯示,82% 的抗體結合強度優於進入模型的原始抗體。
研究人員表示,早期識別多種良好候選者可以幫助制藥公司避免在測試後期失敗而浪費大量資金。
比較不同抗體的反應
利用這種技術,研究人員還可以嘗試回答一些長期存在的問題,例如為什麼不同的人對感染的反應不同。例如,為什麼有些人會發展出更嚴重的 Covid 症狀,而有些接觸 HIV 的人卻從未感染?
科學家們一直在通過對個體的免疫細胞進行單細胞 RNA 測序來回答這些問題,並進行抗體庫分析。先前的研究顯示,兩個不同人的抗體庫可能只有 10% 的重疊。然而,測序並不能提供抗體性能的全面圖像,因為兩個具有不同序列的抗體可能具有相似的結構和功能。
這個新模型可以通過快速生成個體中所有抗體的結構來解決這個問題。在這項研究中,研究人員顯示,當考慮結構時,個體之間的重疊程度遠高於序列比較中的 10%。他們現在計劃進一步研究這些結構如何影響身體對特定病原體的整體免疫反應。
研究得到了賽諾菲和阿卜杜勒·拉提夫·賈米爾健康機器學習診所的資助。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!