在人工智慧和機器學習中,高品質的數據集對於開發準確且可靠的模型非常重要。然而,收集大量經過驗證的數據,特別是在數學、編程和科學等專業領域,仍然是一個挑戰。傳統的數據收集方法往往無法產生有效訓練模型以進行複雜推理任務的數據集。這一差距突顯了創建和驗證數據集的新方法的必要性。
Prime Intellect推出了SYNTHETIC-1,這是一個開源數據集,旨在提供數學、編程和科學領域的經過驗證的推理痕跡。這個數據集在DeepSeek-R1的支持下建立,包含140萬個結構化任務和驗證器。SYNTHETIC-1的目標是通過提供組織良好、可靠的數據來改善推理模型,解決現有資源的不足之處。
SYNTHETIC-1包含多種類型的任務,每種類型都旨在確保質量和相關性:
– 77萬個帶有符號驗證的數學問題:這些問題來自NuminaMath數據集,專注於高中競賽級別的問題。一個基於大型語言模型(LLM)的過濾過程會刪除無法驗證的問題,例如需要證明的問題,並將多選題重新格式化為直接回答的格式。
– 14.4萬個帶有單元測試的編程問題:這些問題來自Apps、Codecontests、Codeforces和TACO等數據集,並附有單元測試來驗證解答。數據集最初包含Python問題,後來擴展到包括JavaScript、Rust和C++,增加了挑戰的多樣性和深度。
– 31.3萬個開放式STEM問題,並由LLM評估:使用StackExchange數據集,這部分涵蓋了廣泛的技術和科學主題。選擇過程優先考慮需要推理的問題,而不是簡單的信息檢索。LLM評審根據答案與社區最高票選的回應的一致性進行評分。
– 7萬個真實世界的軟體工程任務:這些任務來自CommitPack數據集中的GitHub提交,涉及根據提交指令修改代碼文件。LLM評審通過將解決方案與實際的提交後代碼狀態進行比較來評估解答。
– 6.1萬個代碼輸出預測任務:這部分專注於預測對字符串進行代碼轉換的輸出,這些問題設計得特別困難,挑戰現代AI模型的能力。
SYNTHETIC-1的結構化特性使其成為訓練結構化推理模型的寶貴資源。通過包含可編程驗證的問題,例如帶有單元測試的編程任務,該數據集確保了明確的正確性標準。此外,由LLM評審驗證的開放式推理問題提供了挑戰,推動了當前AI能力的極限。該數據集的協作框架還允許持續改進和擴展,促進了共同努力以完善AI訓練資源。
SYNTHETIC-1代表了為基於推理的AI模型創建高品質數據集的一個進步。通過解決現有數據集中的差距,它為改善數學、編程和科學中的機器推理提供了結構化的基礎。該項目還鼓勵持續的貢獻,使其成為研究人員和開發者在推進AI在結構化問題解決能力方面的演變資源。
查看Hugging Face上的詳細信息和數據集。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的75k+機器學習SubReddit。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!