Meta AI 提出 LIGER：一種新穎的 AI 方法，協同結合密集檢索和生成檢索的優勢，以顯著提升生成檢索的性能

推薦系統對於將使用者與相關內容、產品或服務連結起來非常重要。在這個領域，密集檢索方法一直是主要的技術，利用序列建模來計算項目和使用者的表示。然而，這些方法需要大量的計算資源和儲存空間，因為它們需要為每個項目生成嵌入。隨著數據集的增長，這些需求變得越來越繁重，限制了它們的擴展性。生成檢索作為一種新興的替代方案，通過生成模型預測項目索引來減少儲存需求。儘管它有潛力，但在處理冷啟動項目（即與使用者互動有限的新項目）時，仍然面臨性能問題。缺乏一個統一的框架來結合這些方法的優勢，顯示出在計算、儲存和推薦質量之間的權衡存在空白。

來自威斯康辛大學麥迪遜分校 (University of Wisconsin, Madison)、ELLIS單位、LIT AI實驗室、約翰·凱爾大學 (JKU Linz, Austria) 的機器學習研究所，以及Meta AI的研究人員推出了LIGER（LeveragIng dense retrieval for GEnerative Retrieval），這是一種混合檢索模型，結合了生成檢索的計算效率和密集檢索的精確性。LIGER通過密集檢索技術來精煉生成檢索生成的候選集，實現了效率和準確性之間的平衡。該模型利用來自語義ID和基於文本的屬性的項目表示，結合了兩種方法的優勢。這樣，LIGER在減少儲存和計算開銷的同時，解決了性能差距，特別是在涉及冷啟動項目的情況下。

技術細節與優勢

LIGER使用雙向Transformer編碼器和生成解碼器。密集檢索組件整合了項目文本表示、語義ID和位置嵌入，並使用餘弦相似度損失進行優化。生成組件則利用束搜索來根據使用者互動歷史預測後續項目的語義ID。這種組合使LIGER能夠保留生成檢索的效率，同時解決冷啟動項目的限制。該模型的混合推理過程，首先通過生成檢索檢索候選集，然後通過密集檢索進行精煉，有效減少了計算需求，同時保持推薦質量。此外，通過整合文本表示，LIGER能夠很好地泛化到未見過的項目，解決了先前生成模型的一個關鍵限制。

結果與見解

在多個基準數據集上對LIGER進行的評估，包括亞馬遜美容 (Amazon Beauty)、運動 (Sports)、玩具 (Toys) 和Steam，顯示出其在性能上持續優於最先進的模型，如TIGER和UniSRec。例如，LIGER在亞馬遜美容數據集上對冷啟動項目的Recall@10得分為0.1008，而TIGER為0.0。在Steam數據集上，LIGER對冷啟動項目的Recall@10達到0.0147，再次超過TIGER的0.0。這些發現顯示了LIGER有效融合生成和密集檢索技術的能力。此外，隨著生成方法檢索的候選數量增加，LIGER縮小了與密集檢索的性能差距。這種適應性和效率使其適合各種推薦場景。