2026?2027?2028?!好吧,似乎是2028。我明天會更吸引點擊。
大型語言模型(LLMs)需要大量的數據。現在大約有300萬億個可用的人類生成文本,這對目前來說已經足夠了。但以目前的速度,這些數據可能會在2026到2032年之間用完。
更大的LLM需要指數級增長的數據集。例如,GPT-4比GPT-2更出色,因為它使用了更多的數據和計算能力。但隨著我們不斷推進,優質數據的供應可能會成為瓶頸。
最近有一篇論文名為《我們會用完數據嗎?基於人類生成數據的LLM擴展限制》,估計了公共文本數據的存量,使用了各種來源,如CommonCrawl和索引的網頁。
如果模型訓練得比較保守,數據可能會持續到2028年。但如果過度訓練,即使用更多數據來提高效率,則可能會更早耗盡這些數據。例如,過度訓練100倍可能會在2025年就耗盡數據。
早期的預測認為我們會在2024年用完數據,但更新的方法和發現推遲了這一估計。重複使用數據集進行多次訓練,將預測的數據存量擴大了5到10倍。
即使數據有限,人工智慧的進步也不會完全停止。使用更大的模型可能會擴展其能力。但這種方法有其限制,最終會達到瓶頸。
除了文本之外,合成數據和其他模式(如圖像和視頻)可能會發揮更大的作用。合成數據是有前景的,但在許多領域仍然處於實驗階段,除了編程和數學,這些領域的表現相當不錯。
展望未來,需要突破性進展來支持2030年以後的人工智慧增長。潛在的解決方案包括更有效的數據使用、更好的合成數據生成,以及挖掘未被充分利用的數據來源。在這些領域的投資可能會激增。
謝謝你的閱讀!如果你想了解更多關於生成式人工智慧的資訊,記得在LinkedIn上關注生成式人工智慧中心(Generative AI Central)。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!