星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

FineWeb-C:一個社群建構的資料集,用於改善所有語言的語言模型

2024-12-25
in AI 綜合新聞
0 0
0
FineWeb-C:一個社群建構的資料集,用於改善所有語言的語言模型
Share on FacebookShare on Twitter
Your Ad


FineWeb2 大幅提升了多語言的預訓練數據集,涵蓋了超過 1000 種語言,並提供高品質的數據。這個數據集使用了大約 8TB 的壓縮文本數據,包含近 3 兆個單詞,這些數據來自於 2013 到 2024 年之間的 96 次 CommonCrawl 快照。透過 datatrove 函式庫處理後,FineWeb2 在九種不同語言上表現優於 CC-100、mC4、CulturaX 和 HPLT 等已建立的數據集。詳細的實驗設置和評估可以在這個 github 倉庫中找到。

Huggingface 社群的研究人員推出了 FineWeb-C,這是一個由社群驅動的合作項目,旨在擴展 FineWeb2,創建高品質的教育內容標註,涵蓋數百種語言。這個項目讓社群成員能夠評估網頁內容的教育價值,並透過 Argilla 平台識別問題元素。達到 1,000 個標註的語言將有資格納入數據集。這個標註過程有兩個目的:識別高品質的教育內容,並改善所有語言的 LLM(大型語言模型)開發。

318 位 Hugging Face 社群成員提交了 32,863 個標註,為開發高品質的 LLM 在資源不足的語言中做出了貢獻。FineWeb-Edu 是基於原始 FineWeb 數據集建立的,並使用在 LLama3-70B-Instruct 標註上訓練的教育質量分類器來識別和保留最具教育價值的內容。這種方法已被證明成功,表現超過 FineWeb,並減少了訓練有效 LLM 所需的數據量。這個項目的目標是通過收集社群標註,將 FineWeb-Edu 的能力擴展到所有世界語言,訓練特定語言的教育質量分類器。

該項目優先考慮人類生成的標註,而非基於 LLM 的標註,特別是在資源不足的語言中,因為 LLM 的表現無法可靠地驗證。這種社群驅動的方式類似於維基百科的合作模式,強調開放存取和人工智慧技術的民主化。貢獻者參與一個更大的運動,旨在打破 AI 開發中的語言障礙,因為商業公司通常專注於盈利的語言。這個數據集的開放性質使任何人都能建立針對特定社群需求的 AI 系統,同時促進對不同語言有效方法的學習。

FineWeb-Edu 在某些語言的每個頁面上使用多個標註,允許靈活計算標註者的協議。質量控制措施包括計劃在標註較多的語言中增加標註重疊。數據中包含一個布林欄位 ‘problematic_content_label_present’,用於識別帶有問題內容標籤的頁面,這通常是由於錯誤的語言檢測所致。用戶可以根據個別問題標籤或標註者協議通過 ‘problematic_content_label_agreement’ 欄位過濾內容。該數據集在 ODC-By v1.0 許可證和 CommonCrawl 的使用條款下運作。

總結來說,FineWeb2 的社群驅動擴展 FineWeb-C 已經從 318 位貢獻者那裡收集了 32,863 個標註,專注於教育內容的標註。這個項目在現有數據集中表現優於使用較少訓練數據的 FineWeb-Edu 的專門教育內容分類器。與商業方法不同,這個開源倡議優先考慮人類標註而非基於 LLM 的標註,特別是在資源不足的語言中。該數據集具備強健的質量控制措施,包括多層標註和問題內容過濾,同時在 ODC-By v1.0 許可證下運作。

查看詳細資訊。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 60k+ ML SubReddit。

🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型,提供無與倫比的指令跟隨和長上下文理解,領導全球生成 AI 的卓越……。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: FineWebC一個社群建構的資料集用於改善所有語言的語言模型
Previous Post

Qwen 團隊發布 QvQ:一個用於多模態推理的開放權重模型

Next Post

你需要與家人創建一個秘密密碼

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
你需要與家人創建一個秘密密碼

你需要與家人創建一個秘密密碼

解碼準確天氣預報背後的黑客技術:變分數據同化 | 作者:楊文聰,博士 | 2024年12月

解碼準確天氣預報背後的黑客技術:變分數據同化 | 作者:楊文聰,博士 | 2024年12月

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。