大型語言模型 (LLMs) 在自然語言處理上有了很大的進步,但基於標記的架構也帶來了一些限制。這些模型依賴於固定詞彙的標記器,例如字節對編碼 (Byte Pair Encoding, BPE),在訓練之前將文本分割成預定義的標記。雖然這樣做是可行的,但標記化可能會引入低效率和偏見,特別是在處理多語言數據、雜訊輸入或長尾分佈時。此外,標記化在不同標記之間強制均勻的計算分配,無論它們的複雜性如何,這限制了對多樣數據類型的擴展性和泛化能力。
在字節級序列上進行訓練通常需要大量的計算資源,因為需要很長的序列長度。即使自注意力機制有所改善,標記化仍然是瓶頸,降低了在高熵任務中的穩健性和適應性。這些挑戰突顯了需要一種更靈活和高效的方法。
Meta AI 推出字節潛在變壓器 (Byte Latent Transformer, BLT)
Meta AI 的字節潛在變壓器 (BLT) 旨在通過完全消除標記化來解決這些問題。BLT 是一種無標記器的架構,處理原始字節序列,並根據數據的複雜性動態地將它們分組成補丁。這種方法使得擴展變得高效,能夠匹配或超越基於標記的 LLM 的性能,同時提高穩健性和推理效率。
BLT 方法的核心是其動態補丁機制。BLT 不依賴於靜態標記,而是使用基於熵的分段將字節編碼為可變大小的補丁。這種方法通過專注於數據的複雜區域,更有效地分配計算資源。與固定詞彙標記化不同,BLT 的自適應補丁方法使其能夠以更高的效率處理多樣的輸入。
BLT 展示了可擴展性,模型包含多達 80 億個參數和 4 兆字節的數據集。這種無標記器的設計證明了在原始字節上進行訓練既可行又有利,顯著提高了推理效率和穩健性。
技術細節與優勢
BLT 的架構由三個主要組件組成:
- 本地編碼器:這個輕量級模組將字節序列編碼為補丁表示,利用交叉注意力和 n-gram 哈希嵌入。基於熵的字節分組確保了計算資源的有效分配。
- 潛在變壓器:這個全局模型使用區塊因果注意力處理補丁,專注於高熵區域以提高效率。
- 本地解碼器:這個模組從潛在補丁表示中重建字節序列,實現端到端訓練而不需要標記化。
動態補丁大小的適應性減少了與傳統標記化相關的計算開銷。較大的補丁大小在推理過程中節省計算資源,允許將更多參數分配給潛在變壓器。這種設計增強了可擴展性,並改善了模型處理長尾分佈和雜訊輸入的能力。
性能洞察
BLT 在多個維度上顯示出優於傳統 BPE 模型的性能。一項控制浮點運算的擴展研究顯示,BLT 在推理浮點運算上使用最多 50% 更少的運算,卻能達到與 LLaMA 3(領先的基於標記的模型)相當或更好的結果。這種效率使 BLT 能夠有效擴展而不妥協準確性。
在 MMLU、HumanEval 和 PIQA 等基準測試中,BLT 在推理任務和字符級理解方面表現強勁。對於需要對正字法細節或雜訊數據敏感的任務,BLT 超越了基於標記的模型。其動態調整補丁大小的能力也使其能夠高效處理結構化和重複性數據,例如代碼。
該模型的穩健性擴展到高變異性和低資源語言的任務。BLT 的字節級表示提供了對數據更細緻的理解,使其在多語言環境中有效。其效率提升還導致更快的推理和降低計算成本,使其成為大規模應用的實用選擇。
結論
Meta AI 的字節潛在變壓器代表了 LLM 設計的一個重要進步,證明了無標記器模型可以與基於標記的架構競爭並超越它們。通過動態編碼字節為補丁,BLT 解決了靜態標記化的限制,提供了更高的效率、可擴展性和穩健性。其能夠擴展到數十億個參數和數兆字節的訓練數據,突顯了其改變語言建模的潛力。
隨著對可適應和高效 AI 系統的需求增長,BLT 的創新為自然語言處理的未來提供了一個引人注目的框架。通過超越標記化的限制,Meta AI 引入了一個實用且可擴展的模型,為字節級架構樹立了新的標準。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!