在開發新藥的過程中,從實驗室研究到臨床應用的旅程是複雜且昂貴的。藥物發現過程涉及多個階段,包括靶點識別、藥物篩選、先導化合物優化和臨床試驗。每個階段都需要大量的時間和資源投入,導致高風險的失敗。更具體地說,預測藥物候選物的吸收、分佈、代謝、排泄和毒性(ADMET)特性所面臨的挑戰是一個關鍵瓶頸。若沒有有效的方法來準確預測這些特性,許多有潛力的化合物往往在開發的後期階段失敗,導致重大的財務損失。機器學習(ML)提供了一個通過預測性質和行為來加速藥物發現的機會,而無需昂貴且耗時的實驗。然而,成功地在藥物發現中實施機器學習需要跨多個領域的知識,包括化學、生物學和數據科學,這對非專家來說構成了高門檻。
來自南加州大學、卡內基梅隆大學和倫斯勒理工學院的研究人員介紹了DrugAgent,一個旨在自動化藥物發現中的機器學習(ML)編程的多代理框架。DrugAgent試圖通過提供結構化和自動化的方法來解決利用機器學習進行藥物發現所面臨的挑戰。具體而言,DrugAgent利用大型語言模型(LLMs)自主執行任務,從數據獲取到模型選擇,從而使製藥科學家能夠在不需要廣泛編碼專業知識的情況下受益於人工智能。DrugAgent系統性地探索各種想法並構建針對藥物發現獨特需求的特定領域工具,彌補了理論機器學習潛力與藥物研究中的實際應用之間的差距。
DrugAgent由兩個主要組件組成:LLM Instructor和LLM Planner。LLM Instructor識別需要特定領域知識的具體要求,並創建適合這些要求的工具。這確保了機器學習任務與藥物發現的複雜性相一致,從數據預處理到正確使用化學特定庫。與此同時,LLM Planner管理整個機器學習工作流程中的想法探索和細化,使DrugAgent能夠評估多種方法並收斂到最有效的解決方案。通過系統性地管理多樣想法的探索,LLM Planner確保DrugAgent能夠根據實時觀察生成和篩選出不可行的解決方案。這一自動化工作流程使DrugAgent能夠完成從數據集獲取到性能評估的ADMET預測的端到端機器學習管道。在使用PAMPA數據集的案例研究中,DrugAgent在使用隨機森林模型預測吸收特性時達到了0.92的F1得分,顯示出該框架的有效性。
DrugAgent的重要性在於其降低了在藥物發現中應用機器學習的門檻。製藥行業的特點是對專門知識的高度要求,而基於機器學習的藥物發現也不例外。雖然通用的LLMs功能強大,但在藥物發現任務的細微差別上往往無法滿足需求,例如選擇特定領域庫的正確API或準確預處理化學數據。這正是DrugAgent的優勢所在;它整合工作流程以識別需要專業知識的步驟,並構建必要的工具來處理它們。此外,DrugAgent採用了動態的想法空間管理系統,能在開始時生成多種方法並根據實驗結果迭代更新它們。通過採用這一結構化工作流程,DrugAgent能夠自動確定給定任務最合適的方法。例如,在ADMET預測的案例研究中,DrugAgent評估了不同的模型,包括圖神經網絡和像ChemBERTa這樣的預訓練模型,最終由於其卓越的性能選擇了隨機森林模型。這一系統化的探索和工具構建過程確保了DrugAgent能夠有效地應對藥物發現的複雜性。
DrugAgent的引入代表了人工智能在製藥研究應用中的重大進展。通過自動化複雜的機器學習編程任務,DrugAgent使製藥科學家能夠專注於藥物發現的戰略方面,例如假設形成和結果解釋,而不是面對技術實施的挑戰。該框架在ADMET預測任務中展示的高預測準確性凸顯了其改善藥物候選篩選和降低後期失敗風險的潛力。研究人員在自動化ADMET預測任務中對DrugAgent和ReAct(通用的基於LLM的推理和行動框架)進行了比較。比較結果顯示,ReAct在領域特定集成方面存在困難,例如API調用不正確和缺乏自我調試能力。另一方面,DrugAgent系統性地解決了這些問題,確保整個管道在無需人工干預的情況下成功完成。這些結果凸顯了DrugAgent提高效率、降低成本和提高藥物發現成功率的能力。
總之,DrugAgent提供了一個自動化的解決方案,用於利用機器學習進行藥物發現,解決了傳統上阻礙人工智能融入該領域的幾個關鍵挑戰。通過融入特定領域知識並系統性地細化多種想法,DrugAgent彌補了通用人工智能能力與製藥研究專業需求之間的差距。DrugAgent所展示的初步成功,特別是其自動完成機器學習管道並實現強大預測性能的能力,預示著AI驅動的藥物發現的光明未來。隨著該領域的持續發展,DrugAgent為進一步的進展提供了基礎,最終有助於更高效、準確和具成本效益的藥物開發管道。
查看論文。這項研究的所有功勞都歸於該項目的研究人員。此外,別忘了在Twitter上關注我們,並加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你一定會喜歡我們的通訊。別忘了加入我們超過55k的機器學習SubReddit。
🎙️ 🚨《大型語言模型漏洞評估:紅隊技術比較分析》閱讀完整報告(推廣)