星期日, 25 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

Meta AI 推出 Byte Latent Transformer (BLT):一種無需標記的模型,具備高效擴展能力

2024-12-14
in 機器學習與應用
0 0
0
Meta AI 推出 Byte Latent Transformer (BLT):一種無需標記的模型,具備高效擴展能力
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在自然語言處理上有了很大的進步,但基於標記的架構也帶來了一些限制。這些模型依賴於固定詞彙的標記器,例如字節對編碼 (Byte Pair Encoding, BPE),在訓練之前將文本分割成預定義的標記。雖然這樣做是可行的,但標記化可能會引入低效率和偏見,特別是在處理多語言數據、雜訊輸入或長尾分佈時。此外,標記化在不同標記之間強制均勻的計算分配,無論它們的複雜性如何,這限制了對多樣數據類型的擴展性和泛化能力。

在字節級序列上進行訓練通常需要大量的計算資源,因為需要很長的序列長度。即使自注意力機制有所改善,標記化仍然是瓶頸,降低了在高熵任務中的穩健性和適應性。這些挑戰突顯了需要一種更靈活和高效的方法。

Meta AI 推出字節潛在變壓器 (Byte Latent Transformer, BLT)

Meta AI 的字節潛在變壓器 (BLT) 旨在通過完全消除標記化來解決這些問題。BLT 是一種無標記器的架構,處理原始字節序列,並根據數據的複雜性動態地將它們分組成補丁。這種方法使得擴展變得高效,能夠匹配或超越基於標記的 LLM 的性能,同時提高穩健性和推理效率。

BLT 方法的核心是其動態補丁機制。BLT 不依賴於靜態標記,而是使用基於熵的分段將字節編碼為可變大小的補丁。這種方法通過專注於數據的複雜區域,更有效地分配計算資源。與固定詞彙標記化不同,BLT 的自適應補丁方法使其能夠以更高的效率處理多樣的輸入。

BLT 展示了可擴展性,模型包含多達 80 億個參數和 4 兆字節的數據集。這種無標記器的設計證明了在原始字節上進行訓練既可行又有利,顯著提高了推理效率和穩健性。

技術細節與優勢

BLT 的架構由三個主要組件組成:

  • 本地編碼器:這個輕量級模組將字節序列編碼為補丁表示,利用交叉注意力和 n-gram 哈希嵌入。基於熵的字節分組確保了計算資源的有效分配。
  • 潛在變壓器:這個全局模型使用區塊因果注意力處理補丁,專注於高熵區域以提高效率。
  • 本地解碼器:這個模組從潛在補丁表示中重建字節序列,實現端到端訓練而不需要標記化。

動態補丁大小的適應性減少了與傳統標記化相關的計算開銷。較大的補丁大小在推理過程中節省計算資源,允許將更多參數分配給潛在變壓器。這種設計增強了可擴展性,並改善了模型處理長尾分佈和雜訊輸入的能力。

性能洞察

BLT 在多個維度上顯示出優於傳統 BPE 模型的性能。一項控制浮點運算的擴展研究顯示,BLT 在推理浮點運算上使用最多 50% 更少的運算,卻能達到與 LLaMA 3(領先的基於標記的模型)相當或更好的結果。這種效率使 BLT 能夠有效擴展而不妥協準確性。

在 MMLU、HumanEval 和 PIQA 等基準測試中,BLT 在推理任務和字符級理解方面表現強勁。對於需要對正字法細節或雜訊數據敏感的任務,BLT 超越了基於標記的模型。其動態調整補丁大小的能力也使其能夠高效處理結構化和重複性數據,例如代碼。

該模型的穩健性擴展到高變異性和低資源語言的任務。BLT 的字節級表示提供了對數據更細緻的理解,使其在多語言環境中有效。其效率提升還導致更快的推理和降低計算成本,使其成為大規模應用的實用選擇。

結論

Meta AI 的字節潛在變壓器代表了 LLM 設計的一個重要進步,證明了無標記器模型可以與基於標記的架構競爭並超越它們。通過動態編碼字節為補丁,BLT 解決了靜態標記化的限制,提供了更高的效率、可擴展性和穩健性。其能夠擴展到數十億個參數和數兆字節的訓練數據,突顯了其改變語言建模的潛力。

隨著對可適應和高效 AI 系統的需求增長,BLT 的創新為自然語言處理的未來提供了一個引人注目的框架。通過超越標記化的限制,Meta AI 引入了一個實用且可擴展的模型,為字節級架構樹立了新的標準。



新聞來源

本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!

Tags: BLT一種無需標記的模型具備高效擴展能力ByteLatentmetaTransformer推出
Previous Post

卡內基梅隆大學與博世人工智慧研究人員介紹測試時適應於分佈變化的新見解

Next Post

Eleuther AI 推出一種新穎的機器學習框架,用於通過雅可比矩陣分析神經網絡訓練

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
Eleuther AI 推出一種新穎的機器學習框架,用於通過雅可比矩陣分析神經網絡訓練

Eleuther AI 推出一種新穎的機器學習框架,用於通過雅可比矩陣分析神經網絡訓練

對話式人工智慧的趨勢 – 由生成模型驅動

對話式人工智慧的趨勢 - 由生成模型驅動

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。