研究人員對大型語言模型 (LLMs) 的幻覺現象表示擔憂,因為這些模型生成的內容雖然看起來合理,但卻可能不準確或與主題無關。然而,這些幻覺在創意驅動的領域,如藥物發現中,卻可能具有潛力,因為創新在這些領域中至關重要。LLMs 已被廣泛應用於科學領域,例如材料科學、生物學和化學,幫助進行分子描述和藥物設計等任務。雖然像 MolT5 這樣的傳統模型提供了特定領域的準確性,但當 LLMs 沒有經過微調時,經常會產生幻覺的輸出。儘管這些輸出缺乏事實一致性,但它們仍然可以提供有價值的見解,例如高層次的分子描述和潛在的化合物應用,從而支持藥物發現的探索過程。
藥物發現是一個成本高昂且耗時的過程,涉及評估大量的化學空間並尋找生物挑戰的新解決方案。以往的研究已經使用機器學習和生成模型來協助這個領域,研究人員探索了 LLMs 在分子設計、數據集整理和預測任務中的整合。LLMs 中的幻覺現象,通常被視為缺點,卻可以通過重新組合知識來模擬創造過程,生成新的想法。這一觀點與創造力在創新中的角色相符,正如青霉素等意外發現的突破性例子。通過利用幻覺的見解,LLMs 可以在藥物發現中推進,識別具有獨特特性的分子,並促進高層次的創新。
ScaDS.AI 和德累斯頓工業大學的研究人員假設幻覺可以提升 LLM 在藥物發現中的表現。他們使用了七個經過指令調整的 LLM,包括 GPT-4o 和 Llama-3.1-8B,將幻覺的自然語言描述與分子的 SMILES 字符串結合到分類任務的提示中。結果證實了他們的假設,Llama-3.1-8B 在基準上實現了 18.35% 的 ROC-AUC 改進。較大的模型和中文生成的幻覺顯示出最大的增益。分析顯示,幻覺文本提供了不相關但有見地的信息,幫助進行預測。這項研究突顯了幻覺在製藥研究中的潛力,並提供了利用 LLMs 進行創新藥物發現的新視角。
為了生成幻覺,分子的 SMILES 字符串被轉換為自然語言,使用標準化的提示,系統被定義為“藥物發現的專家”。生成的描述會使用 HHM-2.1-Open 模型進行事實一致性評估,以 MolT5 生成的文本作為參考。結果顯示,LLMs 的事實一致性較低,ChemLLM 的得分為 20.89%,其他模型的平均得分為 7.42–13.58%。藥物發現任務被設計為二元分類問題,通過下一個標記預測特定的分子特性。提示包括 SMILES、描述和任務指令,模型被限制輸出“是”或“否”,根據最高概率進行判斷。
這項研究檢查了不同 LLM 生成的幻覺如何影響分子特性預測任務的表現。實驗使用標準化的提示格式來比較僅基於 SMILES 字符串、結合 MolT5 生成的描述和來自各種 LLM 的幻覺描述的預測。使用 ROC-AUC 分數分析了五個 MoleculeNet 數據集。結果顯示,幻覺通常比僅使用 SMILES 或 MolT5 基準更能提高表現,其中 GPT-4o 獲得了最高的增益。較大的模型從幻覺中受益更多,但在超過 80 億個參數後,改進的效果會趨於平穩。溫度設置會影響幻覺的質量,中等值的設定能帶來最佳的性能提升。
總結來說,這項研究探討了幻覺在 LLMs 中對藥物發現任務的潛在好處。研究假設幻覺可以提升性能,並評估了七個 LLM 在五個數據集中的表現,將幻覺的分子描述整合到提示中。結果證實,與沒有幻覺的基準提示相比,幻覺確實提高了 LLM 的表現。值得注意的是,Llama-3.1-8B 實現了 18.35% 的 ROC-AUC 增益。GPT-4o 生成的幻覺在各模型中提供了一致的改進。研究結果顯示,較大的模型尺寸通常從幻覺中獲益更多,而生成溫度等因素的影響則較小。這項研究突顯了幻覺在人工智慧中的創造潛力,並鼓勵進一步探索其在藥物發現中的應用。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 70k+ ML SubReddit。
🚨 [推薦閱讀] Nebius AI Studio 擴展視覺模型、新語言模型、嵌入和 LoRA (廣告)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!