Hugging Face 發布 FineMath：終極開放數學預訓練數據集，擁有超過 500 億個標記

在教育研究中，獲取高品質的教育資源對於學習者和教育工作者來說是非常重要的。數學常被認為是最具挑戰性的科目之一，需要清晰的解釋和良好結構的資源來提高學習效果。然而，創建和整理專注於數學教育的數據集仍然是一個艱巨的挑戰。許多用於訓練機器學習模型的數據集是專有的，這使得教育內容的選擇、結構或優化過程缺乏透明度。可獲得的開源數據集稀缺，無法解決數學的複雜性，這在開發基於人工智慧的教育工具時造成了困難。

為了解決上述問題，Hugging Face推出了FineMath，這是一個開創性的計畫，旨在讓學習者和研究者都能平等地獲取高品質的數學內容。FineMath是一個全面且開放的數據集，專為數學教育和推理而設計。FineMath解決了從各種在線資源中獲取、整理和改進數學內容的核心挑戰。這個數據集經過精心構建，以滿足旨在解決數學問題和推理任務的機器學習模型的需求。

這個數據集分為兩個主要版本：

FineMath-3+

FineMath-3+包含來自2140萬份文件的340億個標記，格式為Markdown和LaTeX，以保持數學的完整性。

FineMath-4+

FineMath-4+是FineMath-3+的一個子集，擁有670萬份文件中的96億個標記，強調高品質內容和詳細的解釋。

這些精心整理的子集確保了普通學習者和高級模型都能從FineMath的強大框架中受益。

創建FineMath需要多階段的方法來有效提取和改進內容。首先，從CommonCrawl提取原始數據，利用先進工具如Resiliparse準確捕捉文本和格式。初始數據集使用基於Llama-3.1-70B-Instruct的自定義分類器進行評估。這個分類器根據邏輯推理和逐步解決方案的清晰度對頁面進行打分。隨後的階段專注於擴展數據集的範圍，同時保持其質量。解決了早期數據集中LaTeX符號過濾不當的問題，確保了數學表達式的更好保留。去重和多語言評估進一步提高了數據集的相關性和可用性。

FineMath在GSM8k和MATH等既定基準上表現出色。基於FineMath-3+和FineMath-4+訓練的模型在數學推理和準確性方面顯著提升。通過將FineMath與其他數據集（如InfiMM-WebMath）結合，研究人員可以獲得約500億個標記的更大數據集，同時保持卓越的性能。FineMath的結構經過優化，便於無縫整合到機器學習流程中。開發者可以使用Hugging Face的強大庫支持來加載數據集的子集，方便進行各種教育AI應用的實驗和部署。

總之，Hugging Face的FineMath數據集對數學教育和人工智慧的貢獻是變革性的。解決了可獲得性、質量和透明度的缺口，為開放教育資源樹立了新的標杆。未來FineMath的工作包括擴展超越英語的語言支持、增強數學符號的提取和保留、開發先進的質量指標，以及創建針對不同教育水平的專門子集。

查看這個集合和數據集。所有的研究功勞都歸於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。還有，別忘了加入我們的60k+ ML SubReddit。

🚨 熱門消息：LG AI研究發布EXAONE 3.5：三個開源雙語前沿AI級模型，提供無與倫比的指令跟隨和長上下文理解，為生成AI卓越的全球領導地位提供支持……

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！