將大型語言模型(LLMs)調整為專門領域仍然是一個挑戰,尤其是在需要空間推理和結構化問題解決的領域。半導體佈局設計就是一個典型的例子,AI工具必須能夠理解幾何限制並確保元件的精確放置。研究人員正在開發先進的AI架構,以增強LLMs在處理和應用特定領域知識方面的能力。
一般用途的LLMs一個主要的限制是它們無法將理論知識轉化為實際解決方案。雖然這些模型可以準確定義技術概念,但在解決需要空間推理和結構邏輯的現實任務時,經常會失敗。在半導體佈局設計中,AI必須超越基於文本的知識,以確保通孔、金屬層和電路元件的準確放置。如果沒有精確的幾何關係,佈局設計可能因對齊不當或間距不正確而失敗。目前的模型通常需要多輪人工修正,這使得它們的部署效率低下。
為了改善LLMs在特定應用中的適應性,已經開發了幾種方法。微調是指用特定領域的數據訓練LLMs,但這個過程需要大量的時間和計算資源。檢索增強生成(RAG)則是從外部知識中獲取信息來指導LLM的輸出,但這並未完全解決與結構化問題解決相關的挑戰。上下文學習通過提供特定任務的範例來幫助指導LLM的推理,但它無法克服空間推理的限制。這些方法提供了漸進的改進,但未能為需要幾何邏輯的應用提供全面的解決方案。
IBM T.J. Watson研究中心和麻省理工學院-IBM Watson人工智慧實驗室的研究人員推出了SOLOMON,一個神經啟發的LLM推理網絡,以增強其在特定領域的適應性。與傳統方法不同,SOLOMON採用多代理推理系統,動態處理空間限制和幾何關係。該框架整合了思維評估機制,以迭代方式改進輸出,提高問題解決的準確性。SOLOMON利用提示工程技術來指導LLM生成的解決方案,使其能夠在最小的再訓練下適應半導體佈局任務。
SOLOMON的架構受到神經科學的啟發,並整合了自由能原則,通過減少預期結果和觀察結果之間的差異來優化推理。該框架由三個主要組件組成:思維生成器、思維評估器和指導子系統。思維生成器利用多種LLMs生成多條推理路徑,確保為複雜任務提供廣泛的解決方案。思維評估器評估這些輸出,選擇最合邏輯和結構化的方法。指導子系統使研究人員能夠動態修改目標,實現更精確的領域適應。與微調不同,這種架構不需要持續再訓練,使其在專門應用中更高效。
研究人員對25個半導體佈局任務進行了實驗,以評估SOLOMON的有效性。該框架與五個基準LLMs進行比較,包括GPT-4o、Claude-3.5-Sonnet和Llama-3模型。每個任務評估模型生成幾何結構的能力,同時保持空間準確性。SOLOMON在減少運行時錯誤和縮放不準確性方面顯示出改進。該框架展現了更好的空間推理能力,提高了放置精度,減少了生成設計中的錯誤。SOLOMON的實例在多個測試類別中也匹配或超過了o1-preview的性能,其中基於Claude的SOLOMON在某些複雜任務中表現強勁。
SOLOMON的一個主要優勢是其能夠修正幾何設計中的邏輯不一致性和算術錯誤。思維評估器通過分析先前的迭代不斷改進生成的佈局,減輕了傳統LLMs中常見的幻覺問題。該系統有效地減少了誤解,增強了AI生成設計的可靠性。當面對模糊的佈局規範時,SOLOMON能夠在多個LLMs之間同步推理,確保輸出的連貫性和精確性。通過整合分層評估機制,該框架顯著提高了AI驅動設計的準確性。
這項研究強調了增強LLM推理能力的重要性,而不是單純增加模型的大小。SOLOMON為將AI應用於特定領域的問題解決提供了一種結構化和高效的方法,特別是在半導體佈局設計方面。未來的研究將專注於將該框架擴展到其他工程應用,改進多模態推理能力,並引入迭代學習機制以增強AI的決策能力。SOLOMON的推出代表了在使AI驅動工具在現實工業挑戰中變得更精確、適應性強和有效方面的一項重大進展。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的75k+ ML SubReddit。
🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多代理框架,用於評估複雜的對話AI系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!