星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 自然語言處理

兩分鐘生成式人工智慧 — 大型語言模型何時會耗盡訓練數據? | 由法比奧·基亞薩諾撰寫 | 生成式人工智慧

2024-11-20
in 自然語言處理
0 0
0
兩分鐘生成式人工智慧 — 大型語言模型何時會耗盡訓練數據? | 由法比奧·基亞薩諾撰寫 | 生成式人工智慧
Share on FacebookShare on Twitter
Your Ad


2026?2027?2028?!好吧,似乎是2028。我明天會更吸引點擊。

大型語言模型(LLMs)需要大量的數據。現在大約有300萬億個可用的人類生成文本,這對目前來說已經足夠了。但以目前的速度,這些數據可能會在2026到2032年之間用完。

更大的LLM需要指數級增長的數據集。例如,GPT-4比GPT-2更出色,因為它使用了更多的數據和計算能力。但隨著我們不斷推進,優質數據的供應可能會成為瓶頸。

最近有一篇論文名為《我們會用完數據嗎?基於人類生成數據的LLM擴展限制》,估計了公共文本數據的存量,使用了各種來源,如CommonCrawl和索引的網頁。

如果模型訓練得比較保守,數據可能會持續到2028年。但如果過度訓練,即使用更多數據來提高效率,則可能會更早耗盡這些數據。例如,過度訓練100倍可能會在2025年就耗盡數據。

早期的預測認為我們會在2024年用完數據,但更新的方法和發現推遲了這一估計。重複使用數據集進行多次訓練,將預測的數據存量擴大了5到10倍。

即使數據有限,人工智慧的進步也不會完全停止。使用更大的模型可能會擴展其能力。但這種方法有其限制,最終會達到瓶頸。

除了文本之外,合成數據和其他模式(如圖像和視頻)可能會發揮更大的作用。合成數據是有前景的,但在許多領域仍然處於實驗階段,除了編程和數學,這些領域的表現相當不錯。

展望未來,需要突破性進展來支持2030年以後的人工智慧增長。潛在的解決方案包括更有效的數據使用、更好的合成數據生成,以及挖掘未被充分利用的數據來源。在這些領域的投資可能會激增。

謝謝你的閱讀!如果你想了解更多關於生成式人工智慧的資訊,記得在LinkedIn上關注生成式人工智慧中心(Generative AI Central)。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 兩分鐘生成式人工智慧大型語言模型何時會耗盡訓練數據生成式人工智慧由法比奧基亞薩諾撰寫
Previous Post

確保RAG攝取管道:過濾機制

Next Post

深度學習與網絡安全的結合:一種以無與倫比的準確性檢測DDoS攻擊的混合方法

Related Posts

OpenAI 正在開發代理人 — 每週 AI 通訊 (2025 年 3 月 17 日)
自然語言處理

OpenAI 正在開發代理人 — 每週 AI 通訊 (2025 年 3 月 17 日)

2025-03-17
什麼是自然語言語義學?
自然語言處理

什麼是自然語言語義學?

2025-03-13
阿拉伯方言的詞彙距離研究:全面概述
自然語言處理

阿拉伯方言的詞彙距離研究:全面概述

2025-03-12
阿里巴巴發布 QwQ-32B 並附上理由 — 每週 AI 通訊 (2025 年 3 月 10 日)
自然語言處理

阿里巴巴發布 QwQ-32B 並附上理由 — 每週 AI 通訊 (2025 年 3 月 10 日)

2025-03-10
GPT 4.5 發佈! — 每週 AI 通訊 (2025 年 3 月 3 日)
自然語言處理

GPT 4.5 發佈! — 每週 AI 通訊 (2025 年 3 月 3 日)

2025-03-03
自然語言處理的主要關鍵領域
自然語言處理

自然語言處理的主要關鍵領域

2025-03-03
Next Post
深度學習與網絡安全的結合:一種以無與倫比的準確性檢測DDoS攻擊的混合方法

深度學習與網絡安全的結合:一種以無與倫比的準確性檢測DDoS攻擊的混合方法

FTG 封閉式電力分配和端子塊

FTG 封閉式電力分配和端子塊

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。