最近在嵌入模型的進展中,重點是將通用的文本表示轉化為多種應用,例如語義相似性、聚類和分類。傳統的嵌入模型,如通用句子編碼器 (Universal Sentence Encoder) 和句子-T5 (Sentence-T5),旨在提供通用的文本表示,但最近的研究顯示它們在泛化方面的限制。因此,整合大型語言模型 (LLMs) 徹底改變了嵌入模型的發展,主要有兩種方法:通過合成數據生成和困難負樣本挖掘來改善訓練數據集,以及利用預訓練的LLM參數進行初始化。這些方法顯著提高了嵌入質量和下游任務的表現,但也增加了計算成本。
最近的研究也探討了如何將預訓練的LLMs應用於嵌入任務。句子-BERT (Sentence-BERT)、DPR 和 Contriever 展示了對比學習和語言無關訓練對嵌入質量的好處。最近,像 E5-Mistral 和 LaBSE 這樣的模型,基於 GPT-3 和 Mistral 等LLM骨幹進行初始化,已經超越了傳統的BERT和T5嵌入。儘管這些模型取得了成功,但通常需要大量的領域內數據集,這可能導致過擬合。像 MTEB 這樣的努力旨在對嵌入模型進行基準測試,涵蓋多種任務和領域,促進未來研究中更強的泛化能力。
谷歌的 Gemini 嵌入團隊推出了 Gemini 嵌入,這是一個最先進的模型,能生成高度可泛化的文本表示。這個模型建立在谷歌強大的 Gemini 大型語言模型上,利用多語言和代碼理解能力來提高在檢索和語義相似性等多種任務中的嵌入質量。該模型使用高質量的異質數據集進行訓練,這些數據集經過 Gemini 的過濾、正/負段落的選擇和合成數據的生成。Gemini 嵌入通過對比學習和微調,在大規模多語言文本嵌入基準 (MMTEB) 上達到了最先進的性能,超越了之前的多語言、英語和代碼基準模型。
Gemini 嵌入模型基於 Gemini 的廣泛知識生成檢索、分類和排名等任務的表示。它精煉了 Gemini 的初始化參數,並應用池化策略來創建緊湊的嵌入。該模型使用帶有批內負樣本的噪聲對比估計 (NCE) 損失進行訓練,同時多損失方法使嵌入在子維度之間進行適應。訓練過程包括兩個階段:在大型數據集上進行預微調,然後在多樣的任務上進行微調。此外,模型集成增強了泛化能力。Gemini 還幫助生成合成數據、過濾和困難負樣本挖掘,以提高模型在多語言和檢索任務中的性能。
Gemini 嵌入模型在多個基準上進行了評估,包括多語言、英語和基於代碼的任務,涵蓋了超過 250 種語言。它展示了卓越的分類、聚類和檢索性能,持續超越其他領先模型。該模型根據 Borda 分數達到了最高排名,並在跨語言檢索任務中表現優異。此外,即使在某些任務被排除的情況下,它在代碼相關評估中也超越了競爭對手。這些結果凸顯了 Gemini 嵌入作為一個高效的多語言嵌入模型,能夠在多種語言和技術挑戰中提供最先進的性能。
總結來說,Gemini 嵌入模型是一個強大的多語言嵌入解決方案,在分類、檢索、聚類和排名等各種任務中表現出色。即使在僅用英語數據訓練的情況下,它也展示了強大的泛化能力,並在多語言基準上超越了其他模型。為了提高質量,該模型受益於合成數據生成、數據集過濾和困難負樣本挖掘。未來的工作旨在擴展其能力至多模態嵌入,整合文本、圖像、視頻和音頻。在大規模多語言基準上的評估證實了其優越性,使其成為研究人員和開發者尋求高效、高性能嵌入的強大工具。
查看論文。這項研究的所有功勞歸功於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,別忘了加入我們的 80k+ ML SubReddit。
🚨 介紹 Parlant:一個以 LLM 為首的對話式 AI 框架,旨在為開發者提供對其 AI 客戶服務代理的控制和精確度,利用行為指導方針和運行時監督。🔧 🎛️ 它使用易於使用的 CLI 📟 和 Python 及 TypeScript 的原生客戶端 SDK 操作 📦。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!