星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

這篇AI論文介紹了CodeSteer:通過代碼/文本指導的符號增強語言模型

2025-02-12
in 機器學習與應用
0 0
0
這篇AI論文介紹了CodeSteer:通過代碼/文本指導的符號增強語言模型
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在精確計算、符號操作和算法任務上表現不佳,通常需要結構化的問題解決方法。雖然語言模型在語意理解和常識推理上有優勢,但它們並不具備處理需要高精度的操作的能力,例如數學問題解決或基於邏輯的決策。傳統方法試圖通過整合外部工具來彌補這些不足,但缺乏系統性的方法來判斷何時依賴符號計算與文本推理。

研究人員發現現有大型語言模型 (LLMs) 的一個根本限制:它們無法有效地在文本推理和代碼執行之間切換。這個問題的產生是因為大多數輸入提示並沒有明確指出一個問題是用自然語言還是符號計算來解決更好。雖然一些模型,例如 OpenAI 的 GPT 系列,整合了代碼解釋器等功能來解決這個問題,但它們未能有效引導文本和基於代碼的解決方案之間的轉換。挑戰不僅在於執行代碼,還在於知道何時生成代碼。LLMs 通常在缺乏這種能力的情況下默認使用基於文本的推理,導致在複雜問題解決場景中效率低下和錯誤的解決方案。

一些模型已經整合了外部框架來幫助 LLMs 生成和執行代碼。這些包括 OpenAI 的代碼解釋器和像 AutoGen 這樣的多代理框架,它們使用專門的提示來引導模型朝向適當的回應。然而,這些方法未能有效利用符號計算,因為它們並未系統性地微調 LLMs,以平衡代碼執行與自然語言推理。現有的方法提供的適應性有限,通常需要手動干預或特定領域的調整。因此,模型在需要文本和代碼混合問題解決的任務上仍然表現不佳。

來自麻省理工學院 (MIT)、哈佛大學、伊利諾伊大學香檳分校和 MIT-IBM Watson AI 實驗室的研究人員推出了一個名為 CodeSteer 的新框架,旨在引導 LLMs 有效地在基於文本的推理和符號計算之間切換。CodeSteer 微調語言模型,以優化代碼生成和文本推理。這種方法利用了一個新開發的基準,稱為 SymBench,包含 37 個符號任務,使研究人員能夠測量和改進模型處理結構化問題解決的能力。該框架整合了一個微調版本的 Llama-3-8B 模型,並進行多輪監督微調 (SFT) 和直接偏好優化 (DPO),使其在各種問題領域中具有高度適應性。

CodeSteer 框架引入了一種多步驟的方法來增強 LLMs 的推理能力。第一步是開發 SymBench,這是一個包含符號推理任務的基準,例如數學問題解決、邏輯推理和優化。CodeSteer 使用這個數據集生成 12,000 條多輪指導/生成軌跡和 5,500 對指導比較對。接下來,研究人員對 Llama-3-8B 模型進行多輪監督微調和直接偏好優化,使其能夠動態調整決策方法。該框架還通過添加符號檢查器和自我回答檢查器進一步增強,這些檢查器驗證生成解決方案的正確性和效率。這些機制確保模型在代碼執行更有效的情況下不僅依賴於基於文本的推理。

CodeSteer 的性能評估顯示出相較於現有 LLMs 的顯著改進。當與 GPT-4o 整合時,該框架將模型在 37 個符號任務上的平均性能分數從 53.3 提高到 86.4。它的表現也超過了 OpenAI 的 o1 模型(得分 82.7)和 DeepSeek R1(得分 76.8)。在涉及未見任務的評估中,CodeSteer 一直顯示出 41.8% 的改進,超過了 Claude-3-5-Sonnet、Mistral-Large 和 GPT-3.5 模型。通過利用符號計算,CodeSteer 使 LLMs 即使在高度複雜的問題解決任務中也能保持高性能。基準結果表明,該框架提高了準確性並減少了與基於文本的迭代推理相關的低效率。

這項研究強調了引導 LLMs 判斷何時使用符號計算與自然語言推理的重要性。所提出的框架成功克服了現有模型的限制,通過引入結構化的多輪決策方法。通過 CodeSteer,研究人員開發了一個顯著增強大型語言模型有效性的系統,使其在處理複雜問題解決任務時更可靠。通過更有效地整合符號計算,這項研究標誌著在改善 AI 驅動的推理和計劃方面邁出了重要一步。

查看論文和 GitHub 頁面。所有的研究功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 75k+ 機器學習 SubReddit。

🚨 推薦的開源 AI 平台:‘IntellAgent 是一個開源的多代理框架,用於評估複雜的對話 AI 系統’(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 這篇AI論文介紹了CodeSteer通過代碼文本指導的符號增強語言模型
Previous Post

湯森路透在美國贏得首宗重大人工智慧版權案件

Next Post

什麼是基礎模型? | NVIDIA 部落格

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
什麼是基礎模型? | NVIDIA 部落格

什麼是基礎模型? | NVIDIA 部落格

沉浸擴散:一種生成式空間音頻潛在擴散模型

沉浸擴散:一種生成式空間音頻潛在擴散模型

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。