星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

Google AI 推出 Gemini 嵌入:一種從強大的 Gemini 大型語言模型初始化的新型嵌入模型

2025-03-14
in AI 綜合新聞
0 0
0
Google AI 推出 Gemini 嵌入:一種從強大的 Gemini 大型語言模型初始化的新型嵌入模型
Share on FacebookShare on Twitter
Your Ad


最近在嵌入模型的進展中,重點是將通用的文本表示轉化為多種應用,例如語義相似性、聚類和分類。傳統的嵌入模型,如通用句子編碼器 (Universal Sentence Encoder) 和句子-T5 (Sentence-T5),旨在提供通用的文本表示,但最近的研究顯示它們在泛化方面的限制。因此,整合大型語言模型 (LLMs) 徹底改變了嵌入模型的發展,主要有兩種方法:通過合成數據生成和困難負樣本挖掘來改善訓練數據集,以及利用預訓練的LLM參數進行初始化。這些方法顯著提高了嵌入質量和下游任務的表現,但也增加了計算成本。

最近的研究也探討了如何將預訓練的LLMs應用於嵌入任務。句子-BERT (Sentence-BERT)、DPR 和 Contriever 展示了對比學習和語言無關訓練對嵌入質量的好處。最近,像 E5-Mistral 和 LaBSE 這樣的模型,基於 GPT-3 和 Mistral 等LLM骨幹進行初始化,已經超越了傳統的BERT和T5嵌入。儘管這些模型取得了成功,但通常需要大量的領域內數據集,這可能導致過擬合。像 MTEB 這樣的努力旨在對嵌入模型進行基準測試,涵蓋多種任務和領域,促進未來研究中更強的泛化能力。

谷歌的 Gemini 嵌入團隊推出了 Gemini 嵌入,這是一個最先進的模型,能生成高度可泛化的文本表示。這個模型建立在谷歌強大的 Gemini 大型語言模型上,利用多語言和代碼理解能力來提高在檢索和語義相似性等多種任務中的嵌入質量。該模型使用高質量的異質數據集進行訓練,這些數據集經過 Gemini 的過濾、正/負段落的選擇和合成數據的生成。Gemini 嵌入通過對比學習和微調,在大規模多語言文本嵌入基準 (MMTEB) 上達到了最先進的性能,超越了之前的多語言、英語和代碼基準模型。

Gemini 嵌入模型基於 Gemini 的廣泛知識生成檢索、分類和排名等任務的表示。它精煉了 Gemini 的初始化參數,並應用池化策略來創建緊湊的嵌入。該模型使用帶有批內負樣本的噪聲對比估計 (NCE) 損失進行訓練,同時多損失方法使嵌入在子維度之間進行適應。訓練過程包括兩個階段:在大型數據集上進行預微調,然後在多樣的任務上進行微調。此外,模型集成增強了泛化能力。Gemini 還幫助生成合成數據、過濾和困難負樣本挖掘,以提高模型在多語言和檢索任務中的性能。

Gemini 嵌入模型在多個基準上進行了評估,包括多語言、英語和基於代碼的任務,涵蓋了超過 250 種語言。它展示了卓越的分類、聚類和檢索性能,持續超越其他領先模型。該模型根據 Borda 分數達到了最高排名,並在跨語言檢索任務中表現優異。此外,即使在某些任務被排除的情況下,它在代碼相關評估中也超越了競爭對手。這些結果凸顯了 Gemini 嵌入作為一個高效的多語言嵌入模型,能夠在多種語言和技術挑戰中提供最先進的性能。

總結來說,Gemini 嵌入模型是一個強大的多語言嵌入解決方案,在分類、檢索、聚類和排名等各種任務中表現出色。即使在僅用英語數據訓練的情況下,它也展示了強大的泛化能力,並在多語言基準上超越了其他模型。為了提高質量,該模型受益於合成數據生成、數據集過濾和困難負樣本挖掘。未來的工作旨在擴展其能力至多模態嵌入,整合文本、圖像、視頻和音頻。在大規模多語言基準上的評估證實了其優越性,使其成為研究人員和開發者尋求高效、高性能嵌入的強大工具。

查看論文。這項研究的所有功勞歸功於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,別忘了加入我們的 80k+ ML SubReddit。

🚨 介紹 Parlant:一個以 LLM 為首的對話式 AI 框架,旨在為開發者提供對其 AI 客戶服務代理的控制和精確度,利用行為指導方針和運行時監督。🔧 🎛️ 它使用易於使用的 CLI 📟 和 Python 及 TypeScript 的原生客戶端 SDK 操作 📦。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: geminigoogle大型語言模型初始化的新型嵌入模型嵌入一種從強大的推出
Previous Post

美國人工智慧行動計畫的Google建議

Next Post

使用 Amazon Verified Permissions 在容器化工作負載中管理授權

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
使用 Amazon Verified Permissions 在容器化工作負載中管理授權

使用 Amazon Verified Permissions 在容器化工作負載中管理授權

安全雲端創新始於 re:Inforce 2025

安全雲端創新始於 re:Inforce 2025

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。