推薦系統對於將使用者與相關內容、產品或服務連結起來非常重要。在這個領域,密集檢索方法一直是主要的技術,利用序列建模來計算項目和使用者的表示。然而,這些方法需要大量的計算資源和儲存空間,因為它們需要為每個項目生成嵌入。隨著數據集的增長,這些需求變得越來越繁重,限制了它們的擴展性。生成檢索作為一種新興的替代方案,通過生成模型預測項目索引來減少儲存需求。儘管它有潛力,但在處理冷啟動項目(即與使用者互動有限的新項目)時,仍然面臨性能問題。缺乏一個統一的框架來結合這些方法的優勢,顯示出在計算、儲存和推薦質量之間的權衡存在空白。
來自威斯康辛大學麥迪遜分校 (University of Wisconsin, Madison)、ELLIS單位、LIT AI實驗室、約翰·凱爾大學 (JKU Linz, Austria) 的機器學習研究所,以及Meta AI的研究人員推出了LIGER(LeveragIng dense retrieval for GEnerative Retrieval),這是一種混合檢索模型,結合了生成檢索的計算效率和密集檢索的精確性。LIGER通過密集檢索技術來精煉生成檢索生成的候選集,實現了效率和準確性之間的平衡。該模型利用來自語義ID和基於文本的屬性的項目表示,結合了兩種方法的優勢。這樣,LIGER在減少儲存和計算開銷的同時,解決了性能差距,特別是在涉及冷啟動項目的情況下。
技術細節與優勢
LIGER使用雙向Transformer編碼器和生成解碼器。密集檢索組件整合了項目文本表示、語義ID和位置嵌入,並使用餘弦相似度損失進行優化。生成組件則利用束搜索來根據使用者互動歷史預測後續項目的語義ID。這種組合使LIGER能夠保留生成檢索的效率,同時解決冷啟動項目的限制。該模型的混合推理過程,首先通過生成檢索檢索候選集,然後通過密集檢索進行精煉,有效減少了計算需求,同時保持推薦質量。此外,通過整合文本表示,LIGER能夠很好地泛化到未見過的項目,解決了先前生成模型的一個關鍵限制。
結果與見解
在多個基準數據集上對LIGER進行的評估,包括亞馬遜美容 (Amazon Beauty)、運動 (Sports)、玩具 (Toys) 和Steam,顯示出其在性能上持續優於最先進的模型,如TIGER和UniSRec。例如,LIGER在亞馬遜美容數據集上對冷啟動項目的Recall@10得分為0.1008,而TIGER為0.0。在Steam數據集上,LIGER對冷啟動項目的Recall@10達到0.0147,再次超過TIGER的0.0。這些發現顯示了LIGER有效融合生成和密集檢索技術的能力。此外,隨著生成方法檢索的候選數量增加,LIGER縮小了與密集檢索的性能差距。這種適應性和效率使其適合各種推薦場景。
結論
LIGER提供了一個深思熟慮的密集檢索和生成檢索的整合,解決了效率、可擴展性以及處理冷啟動項目的挑戰。其混合架構在計算效率和高質量推薦之間取得平衡,使其成為現代推薦系統的可行解決方案。通過填補現有方法的空白,LIGER為進一步探索混合檢索模型奠定了基礎,促進了推薦系統的創新。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!