多語言應用程式和跨語言任務在今天的自然語言處理 (NLP) 中非常重要,因此強大的嵌入模型變得不可或缺。這些模型支撐著像檢索增強生成和其他人工智慧驅動的解決方案。然而,現有的模型常常面臨噪音訓練數據、領域多樣性不足以及管理多語言數據集的效率低下等挑戰。這些限制影響了性能和擴展性。來自哈爾濱工業大學(深圳)的研究人員針對這些挑戰提出了 KaLM-Embedding,這是一個強調數據質量和創新訓練方法的模型。
KaLM-Embedding 是一個基於 Qwen 2-0.5B 的多語言嵌入模型,並在 MIT 許可下發布。它的設計考慮到了緊湊性和效率,特別適合於計算資源有限的現實應用。
這個模型的數據中心設計是其一大優勢。它包含了 550,000 個使用基於角色的技術生成的合成數據樣本,以確保多樣性和相關性。此外,它還使用排名一致性過濾來去除噪音和假陰性樣本,從而提高訓練數據的質量和穩健性。
技術特徵與優勢
KaLM-Embedding 採用了先進的方法來提供強大的多語言文本嵌入。一個顯著的特徵是 Matryoshka 表示學習,這支持靈活的嵌入維度。這種適應性使得嵌入可以針對不同的應用進行優化,範圍從 64 到 896 維。
訓練策略分為兩個階段:弱監督的預訓練和監督的微調。在微調過程中使用了超過 70 個多樣化的數據集,涵蓋了多種語言和領域。半同質任務批次進一步優化了訓練過程,平衡了批次內負樣本帶來的挑戰與假陰性的風險。
KaLM-Embedding 還受益於其基於 Qwen 2-0.5B 的基礎,這是一個預訓練的自回歸語言模型。這種架構使其能夠有效地適應嵌入任務,提供了相較於傳統 BERT 類模型的優勢。
性能與基準結果
KaLM-Embedding 的性能在大規模文本嵌入基準(MTEB)上進行了評估。它的平均得分為 64.53,為少於 10 億參數的模型設定了高標準。在中文 MTEB 上得分 64.13,英語 MTEB 上得分 64.94,突顯了其多語言能力。儘管某些語言的微調數據有限,該模型仍展現出強大的泛化能力。
消融研究提供了額外的見解。像 Matryoshka 表示學習和排名一致性過濾等特徵被證明能提升性能。然而,研究也突顯了改進的空間,例如進一步精煉低維嵌入以提升效果。
結論:多語言嵌入的一大進步
KaLM-Embedding 代表了多語言嵌入模型的一項重大進展。通過解決噪音數據和不靈活架構等挑戰,它在效率和性能之間取得了平衡。根據 MIT 許可的開源發布,邀請研究人員和實踐者探索並基於此項工作進行建設。
憑藉其強大的多語言性能和創新方法,KaLM-Embedding 在檢索增強系統到跨語言任務等多種應用中都具備良好的潛力。隨著對多語言 NLP 解決方案需求的持續增長,KaLM-Embedding 成為高質量數據和深思熟慮的模型設計影響力的見證。
查看論文、模型和代碼。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60k+ ML SubReddit。
🚨 免費即將舉行的 AI 網路研討會(2025 年 1 月 15 日):使用合成數據和評估智慧提升 LLM 準確性——參加這個網路研討會,獲得可行的見解,以提升 LLM 模型的性能和準確性,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!