利用大型語言模型中的幻覺來增強藥物發現

研究人員對大型語言模型 (LLMs) 的幻覺現象表示擔憂，因為這些模型生成的內容雖然看起來合理，但卻可能不準確或與主題無關。然而，這些幻覺在創意驅動的領域，如藥物發現中，卻可能具有潛力，因為創新在這些領域中至關重要。LLMs 已被廣泛應用於科學領域，例如材料科學、生物學和化學，幫助進行分子描述和藥物設計等任務。雖然像 MolT5 這樣的傳統模型提供了特定領域的準確性，但當 LLMs 沒有經過微調時，經常會產生幻覺的輸出。儘管這些輸出缺乏事實一致性，但它們仍然可以提供有價值的見解，例如高層次的分子描述和潛在的化合物應用，從而支持藥物發現的探索過程。

藥物發現是一個成本高昂且耗時的過程，涉及評估大量的化學空間並尋找生物挑戰的新解決方案。以往的研究已經使用機器學習和生成模型來協助這個領域，研究人員探索了 LLMs 在分子設計、數據集整理和預測任務中的整合。LLMs 中的幻覺現象，通常被視為缺點，卻可以通過重新組合知識來模擬創造過程，生成新的想法。這一觀點與創造力在創新中的角色相符，正如青霉素等意外發現的突破性例子。通過利用幻覺的見解，LLMs 可以在藥物發現中推進，識別具有獨特特性的分子，並促進高層次的創新。

ScaDS.AI 和德累斯頓工業大學的研究人員假設幻覺可以提升 LLM 在藥物發現中的表現。他們使用了七個經過指令調整的 LLM，包括 GPT-4o 和 Llama-3.1-8B，將幻覺的自然語言描述與分子的 SMILES 字符串結合到分類任務的提示中。結果證實了他們的假設，Llama-3.1-8B 在基準上實現了 18.35% 的 ROC-AUC 改進。較大的模型和中文生成的幻覺顯示出最大的增益。分析顯示，幻覺文本提供了不相關但有見地的信息，幫助進行預測。這項研究突顯了幻覺在製藥研究中的潛力，並提供了利用 LLMs 進行創新藥物發現的新視角。

為了生成幻覺，分子的 SMILES 字符串被轉換為自然語言，使用標準化的提示，系統被定義為“藥物發現的專家”。生成的描述會使用 HHM-2.1-Open 模型進行事實一致性評估，以 MolT5 生成的文本作為參考。結果顯示，LLMs 的事實一致性較低，ChemLLM 的得分為 20.89%，其他模型的平均得分為 7.42–13.58%。藥物發現任務被設計為二元分類問題，通過下一個標記預測特定的分子特性。提示包括 SMILES、描述和任務指令，模型被限制輸出“是”或“否”，根據最高概率進行判斷。

這項研究檢查了不同 LLM 生成的幻覺如何影響分子特性預測任務的表現。實驗使用標準化的提示格式來比較僅基於 SMILES 字符串、結合 MolT5 生成的描述和來自各種 LLM 的幻覺描述的預測。使用 ROC-AUC 分數分析了五個 MoleculeNet 數據集。結果顯示，幻覺通常比僅使用 SMILES 或 MolT5 基準更能提高表現，其中 GPT-4o 獲得了最高的增益。較大的模型從幻覺中受益更多，但在超過 80 億個參數後，改進的效果會趨於平穩。溫度設置會影響幻覺的質量，中等值的設定能帶來最佳的性能提升。

總結來說，這項研究探討了幻覺在 LLMs 中對藥物發現任務的潛在好處。研究假設幻覺可以提升性能，並評估了七個 LLM 在五個數據集中的表現，將幻覺的分子描述整合到提示中。結果證實，與沒有幻覺的基準提示相比，幻覺確實提高了 LLM 的表現。值得注意的是，Llama-3.1-8B 實現了 18.35% 的 ROC-AUC 增益。GPT-4o 生成的幻覺在各模型中提供了一致的改進。研究結果顯示，較大的模型尺寸通常從幻覺中獲益更多，而生成溫度等因素的影響則較小。這項研究突顯了幻覺在人工智慧中的創造潛力，並鼓勵進一步探索其在藥物發現中的應用。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 70k+ ML SubReddit。

🚨 [推薦閱讀] Nebius AI Studio 擴展視覺模型、新語言模型、嵌入和 LoRA (廣告)

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 利用大型語言模型中的幻覺來增強藥物發現