Google DeepMind 研究人員解鎖基於解碼的回歸在表格和密度估計任務中的潛力

回歸任務是指預測連續數值的任務，傳統上依賴數值頭，例如高斯參數化或逐點張量投影。這些傳統方法對數據的分佈有很強的假設要求，需要大量標記數據，並且在建模複雜的數值分佈時往往會失效。最近對大型語言模型的研究提出了一種不同的方法——將數值表示為離散標記的序列，並使用自回歸解碼進行預測。然而，這種轉變帶來了幾個嚴重的挑戰，包括需要一個有效的標記化機制、數值精度可能的損失、需要保持穩定的訓練，以及克服序列標記形式對數值缺乏歸納偏見的問題。克服這些挑戰將導致一個更強大、更有效率且更靈活的回歸框架，從而擴展深度學習模型的應用範圍，超越傳統方法。

傳統的回歸模型依賴於數值張量投影或參數分佈頭，例如高斯模型。雖然這些傳統方法很普遍，但也有幾個缺點。基於高斯的模型假設輸出是正態分佈，限制了它們建模更先進的多模態分佈的能力。逐點回歸頭在處理高度非線性或不連續的關係時表現不佳，限制了它們在各種數據集上的泛化能力。高維模型，例如基於直方圖的黎曼分佈，計算量大且數據需求高，因此效率低下。此外，許多傳統方法需要明確的輸出標準化或縮放，這增加了額外的複雜性和潛在的不穩定性。雖然傳統工作嘗試使用大型語言模型進行文本到文本的回歸，但對於“任何到文本”的回歸，即將數值輸出表示為標記序列的系統性研究卻很少，這引入了一種新的數值預測範式。

來自 Google DeepMind 的研究人員提出了一種替代的回歸公式，將數值預測重新定義為自回歸序列生成問題。這種方法不是直接生成標量值，而是將數字編碼為標記序列，並使用約束解碼生成有效的數值輸出。將數值編碼為離散標記序列使這種方法在建模實數數據時更具靈活性和表達力。與基於高斯的方法不同，這種方法對數據不需要強的分佈假設，因此使其更容易適應具有異質模式的現實任務。該模型能夠精確建模多模態、複雜的分佈，從而提高其在密度估計和逐點回歸任務中的表現。通過利用自回歸解碼器的優勢，它利用了最近的語言建模進展，同時保持相對於標準數值頭的競爭性能。這種公式提供了一個穩健且靈活的框架，可以精確建模各種數值關係，為通常被認為不靈活的標準回歸方法提供了一個實用的替代方案。

這種方法使用兩種標記化方法來表示數字：標準化標記化和非標準化標記化。標準化標記化將數字編碼在固定範圍內，使用基數-B 展開來提供隨著序列長度增加而提高的精度。非標準化標記化則將相同的想法擴展到更廣泛的數字範圍，使用如 IEEE-754 的通用浮點表示，而不需要明確的標準化。一個變壓器自回歸模型逐個標記生成數值輸出，並受到約束以提供有效的數值序列。該模型使用交叉熵損失對標記序列進行訓練，以提供準確的數值表示。系統不是直接預測標量輸出，而是抽樣標記序列並使用統計估計技術，如均值或中位數計算，進行最終預測。評估在 OpenML-CTR23 和 AMLB 基準的現實世界表格回歸數據集上進行，並與高斯混合模型、基於直方圖的回歸和標準逐點回歸頭進行比較。針對不同的解碼器設置進行超參數調整，例如層數、隱藏單元和標記詞彙的變化，以提供最佳性能。

實驗顯示，該模型成功捕捉到複雜的數值關係，在各種回歸任務中表現出色。它在表格回歸中獲得了高肯德爾-陶相關分數，經常超過基準模型，特別是在數據量少的情況下，數值穩定性至關重要。該方法在密度估計方面也表現更好，成功捕捉到複雜的分佈，在負對數似然測試中超過高斯混合模型和基於黎曼的方法。模型大小的調整在開始時提高了性能，過大的容量會導致過擬合。通過錯誤修正方法，如標記重複和多數投票，顯著提高了數值穩定性，最小化了對異常值的脆弱性。這些結果使這一回歸框架成為傳統方法的穩健和自適應替代方案，顯示出其在各種數據集和建模任務中成功泛化的能力。

這項研究介紹了一種新的數值預測方法，利用標記化表示和自回歸解碼。通過用基於標記的輸出替代傳統的數值回歸頭，該框架提高了在建模實數數據時的靈活性。它在各種回歸任務中達到了競爭性能，特別是在密度估計和表格建模方面，同時為近似任意概率分佈提供了理論保證。在重要的背景下，它超越了傳統回歸方法，特別是在建模複雜分佈和稀疏訓練數據方面。未來的工作將涉及改進標記化方法以提高數值精度和穩定性，將框架擴展到多輸出回歸和高維預測任務，以及研究其在強化學習獎勵建模和基於視覺的數值估計中的應用。這些結果使基於序列的數值回歸成為傳統方法的有希望的替代方案，擴大了語言模型能夠成功解決的任務範圍。

查看論文和 GitHub 頁面。所有這項研究的功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 75k+ 機器學習 SubReddit。

🚨 Marktechpost 邀請 AI 公司/初創企業/團體合作，參加即將舉行的 AI 雜誌，主題為「開源 AI 在生產中的應用」和「代理 AI」。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！