兩分鐘生成式人工智慧 — 大型語言模型何時會耗盡訓練數據？ | 由法比奧·基亞薩諾撰寫

大型語言模型（LLMs）需要大量的數據。現在大約有300萬億個可用的人類生成文本，這對目前來說已經足夠了。但以目前的速度，這些數據可能會在2026到2032年之間用完。

更大的LLM需要指數級增長的數據集。例如，GPT-4比GPT-2更出色，因為它使用了更多的數據和計算能力。但隨著我們不斷推進，優質數據的供應可能會成為瓶頸。

最近有一篇論文名為《我們會用完數據嗎？基於人類生成數據的LLM擴展限制》，估計了公共文本數據的存量，使用了各種來源，如CommonCrawl和索引的網頁。

如果模型訓練得比較保守，數據可能會持續到2028年。但如果過度訓練，即使用更多數據來提高效率，則可能會更早耗盡這些數據。例如，過度訓練100倍可能會在2025年就耗盡數據。

早期的預測認為我們會在2024年用完數據，但更新的方法和發現推遲了這一估計。重複使用數據集進行多次訓練，將預測的數據存量擴大了5到10倍。

即使數據有限，人工智慧的進步也不會完全停止。使用更大的模型可能會擴展其能力。但這種方法有其限制，最終會達到瓶頸。

除了文本之外，合成數據和其他模式（如圖像和視頻）可能會發揮更大的作用。合成數據是有前景的，但在許多領域仍然處於實驗階段，除了編程和數學，這些領域的表現相當不錯。

展望未來，需要突破性進展來支持2030年以後的人工智慧增長。潛在的解決方案包括更有效的數據使用、更好的合成數據生成，以及挖掘未被充分利用的數據來源。在這些領域的投資可能會激增。

謝謝你的閱讀！如果你想了解更多關於生成式人工智慧的資訊，記得在LinkedIn上關注生成式人工智慧中心（Generative AI Central）。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

兩分鐘生成式人工智慧 — 大型語言模型何時會耗盡訓練數據？ | 由法比奧·基亞薩諾撰寫 | 生成式人工智慧