星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

提升 AI 數學技能:反例驅動推理如何改變大型語言模型

2025-02-21
in AI 綜合新聞
0 0
0
提升 AI 數學技能:反例驅動推理如何改變大型語言模型
Share on FacebookShare on Twitter
Your Ad


數學大型語言模型(LLMs)展現了強大的問題解決能力,但它們的推理能力往往受到模式識別的限制,而不是基於真正的概念理解。當前的模型在訓練過程中主要依賴於接觸到類似的證明,這使得它們在面對新的數學問題時受到限制。這種限制使得LLMs無法進行高級數學推理,特別是在需要區分密切相關數學概念的問題上。LLMs通常缺乏的一種高級推理策略是反例證明,這是一種用來駁斥錯誤數學主張的核心方法。缺乏足夠的生成和使用反例的能力,妨礙了LLMs在高級數學概念推理中的表現,因此降低了它們在正式定理驗證和數學探索中的可靠性。

之前改善LLMs數學推理的嘗試可以分為兩種主要方法。第一種方法是合成問題生成,這種方法在大量由種子數學問題生成的數據集上訓練LLMs。例如,WizardMath使用GPT-3.5生成不同難度的問題。第二種方法是正式定理證明,這種方法訓練模型使用如Lean 4等證明系統,像Draft-Sketch-Prove和Lean-STaR,幫助LLMs進行結構化的定理證明。雖然這些方法增強了問題解決能力,但它們也有嚴重的限制。合成問題生成主要是記憶而非真正的理解,使得模型在面對新問題時容易失敗。另一方面,正式定理證明技術受到結構化數學語言的限制,這限制了它們在各種數學背景中的應用。這些限制突顯了需要一種替代的範式——一種關注概念理解而非模式識別的範式。

為了解決這些限制,提出了一個以反例為驅動的數學推理基準,稱為COUNTERMATH。這個基準專門設計用來評估和增強LLMs在證明中使用反例的能力。這項創新包括高品質的基準、數據工程過程和全面的模型評估。COUNTERMATH包含1,216個數學主張,每個主張都需要一個反例來駁斥。這些問題是從大學教科書中精心挑選的,並經過專家廣泛驗證。為了增強LLMs的反例推理能力,實施了一個自動數據收集過程,過濾和精煉數學證明數據,以獲得基於反例的推理示例。對於最先進的數學LLMs,如OpenAI的o1模型和經過微調的開源變體,COUNTERMATH進行了嚴格的評估。通過將重點轉向基於示例的推理,而非僅僅是定理證明,這種方法開啟了一條新的、尚未充分探索的訓練數學LLMs的路徑。

COUNTERMATH是基於四個核心數學學科構建的:代數、拓撲學、實分析和泛函分析。數據是通過多步驟過程建立的。首先,從教科書中收集數學陳述,並通過光學字符識別(OCR)轉換為結構化數據。數學家然後審查和註釋每個問題,以確保邏輯一致性和準確性。由於原始數據是中文,因此進行專業翻譯,並進行額外檢查。還提出了一個任務內數據工程框架,自動檢索基於反例的推理訓練數據。在這個框架中,應用了GPT-4o過濾和精煉技術,以從ProofNet和NaturalProof等外部來源提取相關證明。進行精煉以確保每個證明明確展示反例,這樣LLMs就能更有效地學習基於反例的推理。

對於最先進的數學LLMs在COUNTERMATH上的評估顯示了反例驅動推理的顯著差距。大多數模型無法使用反例來判斷陳述的真偽,這反映出深刻的概念弱點。不同數學領域的表現也不一,代數和泛函分析表現較好,而拓撲學和實分析因其抽象性仍然非常具挑戰性。開源模型的表現不如專有模型,只有少數模型具有中等的概念推理能力。然而,使用基於反例的數據進行微調顯著提高了性能,增強了判斷準確性和基於示例的推理。一個經過微調的模型,僅用1,025個基於反例的訓練樣本,表現顯著優於其基線版本,並且在分佈外的數學測試中具有強大的泛化能力。下表1的詳細評估顯示了基於F1分數和推理一致性指標的性能比較。在開源模型中,Qwen2.5-Math-72B-Instruct表現最佳(41.8 F1),但落後於專有模型如GPT-4o(59.0 F1)和OpenAI o1(60.1 F1)。微調帶來了顯著的提升,Qwen2.5-Math-7B-Instruct-SFT + Hint提示達到41.1 F1,證實了基於反例的訓練的有效性。

這個提議的方法提出了COUNTERMATH,一個基於反例的推理基準,旨在改善LLMs的數學概念能力。利用精心策劃的問題集和自動數據精煉過程,顯示出現有的LLMs在深度數學推理方面並不熟練,但可以通過基於反例的訓練大大增強。這些結果暗示未來的人工智慧研究需要專注於增強概念理解,而不是僅僅依賴於接觸式學習。反例推理不僅在數學中至關重要,還在邏輯、科學研究和正式驗證中發揮作用,因此這種方法可以擴展到各種基於人工智慧的分析任務中。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,並別忘了加入我們的75k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理人工智慧系統和數據合規標準,以解決人工智慧數據集中的法律問題。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 提升數學技能反例驅動推理如何改變大型語言模型
Previous Post

這篇AI論文介紹了「最短多數投票」:一種改進的平行擴展方法,用於提升大型語言模型的測試時間性能

Next Post

解開空間變異基因:空間轉錄組學的統計視角

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
解開空間變異基因:空間轉錄組學的統計視角

解開空間變異基因:空間轉錄組學的統計視角

數據啜飲:與塞斯·梅斯林的訪談

數據啜飲:與塞斯·梅斯林的訪談

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。