星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

史丹佛大學研究人員提出一個統一的基於回歸的序列模型機器學習框架,具關聯記憶

2025-01-25
in 機器學習與應用
0 0
0
史丹佛大學研究人員提出一個統一的基於回歸的序列模型機器學習框架,具關聯記憶
Share on FacebookShare on Twitter
Your Ad


序列是用來表示和處理資訊的通用抽象概念,因此序列建模在現代深度學習中非常重要。將計算任務視為序列之間的轉換,使得這個觀點擴展到自然語言處理 (NLP)、電腦視覺、時間序列分析和計算生物學等多個領域。這推動了各種序列模型的發展,包括變壓器 (transformers)、遞歸神經網路 (recurrent networks) 和卷積網路 (convolutional networks),每種模型在特定情境下表現出色。然而,這些模型通常是通過零散和經驗驅動的研究產生的,這使得理解它們的設計原則或系統性地優化它們的性能變得困難。缺乏統一的框架和一致的符號進一步模糊了這些架構之間的基本聯繫。

一個關鍵的發現是,不同序列模型之間的聯繫在於它們進行聯想回憶的能力與語言建模的有效性之間的關係。例如,研究顯示變壓器使用像誘導頭 (induction heads) 的機制來存儲標記對並預測後續標記。這突顯了聯想回憶在決定模型成功中的重要性。自然會產生一個問題:我們如何能夠有意設計架構以在聯想回憶上表現優異?解決這個問題可以澄清為什麼某些模型表現優於其他模型,並指導創建更有效和可泛化的序列模型。

來自史丹佛大學 (Stanford University) 的研究人員提出了一個統一框架,將序列模型與聯想記憶連結起來,通過回歸-記憶對應關係來實現。他們展示了記住鍵-值對等同於在測試時解決回歸問題,提供了一種系統性設計序列模型的方法。通過將架構視為回歸目標、函數類別和優化算法的選擇,這個框架解釋並概括了線性注意力 (linear attention)、狀態空間模型 (state-space models) 和軟最大注意力 (softmax attention)。這種方法利用了數十年的回歸理論,提供了對現有架構的更清晰理解,並指導開發更強大、理論基礎更扎實的序列模型。

序列建模的目標是將輸入標記映射到輸出標記,其中聯想回憶對於像上下文學習 (in-context learning) 這樣的任務至關重要。許多序列層將輸入轉換為鍵-值對和查詢,但具有聯想記憶的層的設計通常缺乏理論基礎。測試時回歸框架通過將聯想記憶視為解決回歸問題來解決這個問題,其中記憶映射根據鍵來近似值。這個框架通過將其設計視為三個選擇來統一序列模型:為聯繫分配權重、選擇回歸函數類別和選擇優化方法。這種系統性的方法使得架構設計更具原則性。

為了實現有效的聯想回憶,構建特定任務的鍵-值對至關重要。傳統模型使用線性投影來處理查詢、鍵和值,而最近的方法則強調“短卷積”以提高性能。一個單一的測試時回歸層與一個短卷積就足以解決多查詢聯想回憶 (MQAR) 任務,通過形成二元組鍵-值對來實現。記憶容量,而非序列長度,決定模型性能。線性注意力可以用正交嵌入解決MQAR,但無權重的遞歸最小二乘法 (RLS) 在考慮鍵協方差的情況下,對於較大的鍵-值集表現更好。這些發現突顯了記憶容量和鍵構建在實現最佳回憶中的重要性。

總之,這項研究提出了一個統一框架,將具有聯想記憶的序列模型解釋為測試時的回歸器,特徵包括三個組件:聯繫的重要性、回歸函數類別和優化算法。它通過回歸原則解釋了線性注意力、軟最大注意力和在線學習者等架構,提供了對QKNorm和高階注意力概括等特徵的見解。這個框架強調了單層設計在MQAR等任務中的效率,避免了冗餘層的使用。通過將序列模型與回歸和優化文獻相連接,這種方法為未來在自適應和高效模型方面的進步開辟了道路,強調了聯想記憶在動態現實環境中的作用。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。不要忘記加入我們的70k+ ML SubReddit。

🚨 [推薦閱讀] Nebius AI Studio擴展視覺模型、新語言模型、嵌入和LoRA (推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 史丹佛大學研究人員提出一個統一的基於回歸的序列模型機器學習框架具關聯記憶
Previous Post

LG收購Bear Robotics的多數股權

Next Post

伯克利天空計算實驗室推出Sky-T1-32B-Flash:一種新型推理語言模型,顯著減少過度思考,將在挑戰性問題上的推理成本降低多達57%

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
伯克利天空計算實驗室推出Sky-T1-32B-Flash:一種新型推理語言模型,顯著減少過度思考,將在挑戰性問題上的推理成本降低多達57%

伯克利天空計算實驗室推出Sky-T1-32B-Flash:一種新型推理語言模型,顯著減少過度思考,將在挑戰性問題上的推理成本降低多達57%

AI在塑造UX研究未來中的角色

AI在塑造UX研究未來中的角色

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。