基於提示的實驗以改善內容個性化中的準確性和透明推理。

在德國之聲(DER SPIEGEL),我們不斷探索改善我們向讀者推薦新聞文章的方法。在我們最新的(離線)實驗中,我們調查了大型語言模型(LLMs)是否能有效預測讀者根據其閱讀歷史可能感興趣的文章。
我們的方法
我們進行了一項研究,讓參與者參加了一項調查,評估他們對各種新聞文章的興趣。這為我們提供了讀者偏好的真實數據。對於每位參與者,我們擁有兩個關鍵信息:他們的實際閱讀歷史(在參加調查之前閱讀的文章)以及他們在調查中對一組新文章的評分。想了解更多關於這種混合方法的離線新聞推薦系統評估,請點擊這裡:
然後,我們使用Anthropic API訪問Claude 3.5 Sonnet,一個最先進的語言模型,作為我們的推薦引擎。對於每位讀者,我們向模型提供了他們的閱讀歷史(新聞標題和文章摘要),並要求它預測他們對調查中的文章的興趣程度。以下是我們使用的提示:
你是一個新聞推薦系統。根據用戶的閱讀歷史,預測他們閱讀新文章的可能性。為每篇文章打分,範圍從0到1000,其中1000表示閱讀的可能性最高。
閱讀歷史(用戶之前閱讀的文章):[列出之前閱讀文章的標題和摘要]
請評分以下文章(為每篇文章提供0-1000的分數):[列出候選文章以評分]
你必須以此格式回應JSON對象:{“recommendations”: [{“article_id”: “article-id-here”,”score”: score}]}
通過這種方法,我們現在可以將調查中的實際評分與LLM的分數預測進行比較。這一比較提供了一個理想的數據集,以評估語言模型預測讀者興趣的能力。
結果和主要發現
研究結果相當強勁。為了理解其表現,我們可以觀察兩個關鍵指標。首先是Precision@5:LLM達到了56%的得分,這意味著當系統為用戶推薦其最上面5篇文章(從15篇中),平均來說(幾乎)3篇是該用戶在我們的調查中評分最高的文章。查看這些預測的分佈顯示出更令人印象深刻的結果:對於24%的用戶,系統正確識別了他們的4或5篇最佳文章。對於另外41%的用戶,它正確識別了他們的5篇最佳文章中的3篇。
為了將其置於背景中,如果我們隨機推薦文章,我們的精度僅會達到38.8%(有關詳細信息,請參見之前的中等文章)。即使是僅基於文章受歡迎程度的推薦(推薦大多數人閱讀的內容)也僅達到42.1%,而我們之前使用基於嵌入的技術的做法達到45.4%。
下面的圖形顯示了提升效果:雖然對用戶有任何形式的了解都比隨機猜測(隨機模型)要好,但基於LLM的方法表現最強。即使與我們複雜的基於嵌入的邏輯相比,LLM在預測準確性上也有顯著提升。
作為第二個評估指標,我們使用斯皮爾曼相關係數。其值為0.41,顯示出相對於我們基於嵌入的方法(0.17)有了顯著改善。這也表明LLM不僅在尋找相關文章方面更優秀,還能理解讀者可能對一篇文章的偏好程度。
超越性能:可解釋性的力量
LLM基於推薦的不同之處不僅在於其性能,還在於其能夠用自然語言解釋其決策的能力。以下是我們系統如何分析用戶的閱讀模式並解釋其推薦的示例(未顯示提示):
用戶的閱讀歷史中有221篇文章
前5名比較:——————————————————————————–
Claude預測的前5名:1. Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten(得分:850,實際值:253.0)2. Warum wir den Umgang mit der Sonne neu lernen müssen(得分:800,實際值:757.0)3. Lohnt sich ein Speicher für Solarstrom vom Balkon?(得分:780,實際值:586.0)4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist«(得分:750,實際值:797.0)5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen(得分:720,實際值:766.0)
調查中的實際前5名:4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist«(值:797.0,預測得分:750)5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen(值:766.0,預測得分:720)2. Warum wir den Umgang mit der Sonne neu lernen müssen(值:757.0,預測得分:800)6. Abitur als Lotterie?(值:601.0,預測得分:650)3. Lohnt sich ein Speicher für Solarstrom vom Balkon?(值:586.0,預測得分:780)
性能指標:——————————————————————————–斯皮爾曼相關係數:0.673Precision@5:0.800
Claude的分析:——————————————————————————–1. 用戶閱讀歷史中的關鍵模式:- 對社會和政治問題有強烈興趣- 定期參與生活方式和個人發展內容- 對健康和保健主題感興趣- 經常閱讀關於經濟和金融問題的文章- 對批判性分析和評論作品的吸引- 對食物和烹飪內容的興趣
2. 評分解釋:
得分最高的文章:- “Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten”(850) – 與用戶對個人發展和生活方式內容的興趣一致- “Warum wir den Umgang mit der Sonne neu lernen müssen”(800) – 符合對健康和保健主題的興趣- “Lohnt sich ein Speicher für Solarstrom vom Balkon?”(780) – 與實用建議和經濟考慮的興趣相符
中等得分的文章:- “Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist”(750) – 符合對政治評論的興趣模式- “Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen”(720) – 符合對社會問題和批判性報導的興趣- “Abitur als Lotterie?”(650) – 與教育和社會主題的興趣一致
低得分的文章:- “Eine Brise Formel 1″(550) – 閱讀歷史中體育內容有限- “Reizender Absatz”(450) – 與表現出的興趣不太一致- “Hier wird jetzt auf ganz, ganz hohem Niveau gemeckert”(400) – 風格和主題與用戶偏好不太一致
該評分優先考慮與用戶在社會問題、實用建議和批判性分析方面表現出的興趣相匹配的文章,同時對體育和較輕內容的得分較低,因為這些內容在他們的閱讀歷史中出現得較少。
系統不僅僅作為黑箱運作,而是能夠清楚地說明為什麼它認為某篇文章對讀者可能感興趣:因為你經常閱讀有關實用建議和經濟問題的文章,你可能會發現這篇關於陽台太陽能儲存的成本效益分析特別相關。這種透明的推理方式可能會使推薦更具個性化和可信度。
結論
儘管我們的結果令人鼓舞,但仍需解決幾個挑戰。由於提示較長(每個用戶數百篇文章摘要),最大的挑戰是成本。單次推薦運行的成本約為每位用戶0.21美元,若擴展至全體讀者,則費用過於昂貴。測試高性能的開源模型可能會降低這些成本。此外,目前的實施相對較慢,每位用戶需要幾秒鐘。對於一個內容經常更新、讀者興趣有時甚至在一天內不斷變化的新聞平台,我們需要每天多次運行這些推薦以保持相關性。
此外,我們使用了單一的、簡單的提示,沒有進行任何提示工程或優化。通過系統性地改進提示,可能還有(顯著的)改進空間。[1] 此外,我們目前的實施僅使用文章標題和摘要,而未利用可用的元數據。我們可以通過納入其他信號(例如每篇文章的閱讀時間——用戶花了多長時間閱讀每篇文章)或整體文章受歡迎度來提高性能。不過,由於API成本高昂,運行迭代的評估管道目前並不是一個可行的選擇。
總的來說,強大的預測性能和自然語言解釋的結合表明,LLMs將在新聞推薦系統中成為一個有價值的工具。除此之外,它們還提供了一種新的方式來分析數字新聞中的用戶旅程。它們處理和解釋閱讀歷史與元數據的能力開啟了令人興奮的可能性:從理解內容旅程和主題進展到創建個性化的回顧總結。