使用大型語言模型使新聞推薦可解釋 | 作者：亞歷克斯·赫爾德

基於提示的實驗以改善內容個性化中的準確性和透明推理。

在德國之聲（DER SPIEGEL），我們不斷探索改善我們向讀者推薦新聞文章的方法。在我們最新的（離線）實驗中，我們調查了大型語言模型（LLMs）是否能有效預測讀者根據其閱讀歷史可能感興趣的文章。

我們的方法

我們進行了一項研究，讓參與者參加了一項調查，評估他們對各種新聞文章的興趣。這為我們提供了讀者偏好的真實數據。對於每位參與者，我們擁有兩個關鍵信息：他們的實際閱讀歷史（在參加調查之前閱讀的文章）以及他們在調查中對一組新文章的評分。想了解更多關於這種混合方法的離線新聞推薦系統評估，請點擊這裡：

然後，我們使用Anthropic API訪問Claude 3.5 Sonnet，一個最先進的語言模型，作為我們的推薦引擎。對於每位讀者，我們向模型提供了他們的閱讀歷史（新聞標題和文章摘要），並要求它預測他們對調查中的文章的興趣程度。以下是我們使用的提示：

你是一個新聞推薦系統。根據用戶的閱讀歷史，預測他們閱讀新文章的可能性。為每篇文章打分，範圍從0到1000，其中1000表示閱讀的可能性最高。

閱讀歷史（用戶之前閱讀的文章）：[列出之前閱讀文章的標題和摘要]

請評分以下文章（為每篇文章提供0-1000的分數）：[列出候選文章以評分]

你必須以此格式回應JSON對象：{“recommendations”: [{“article_id”: “article-id-here”,”score”: score}]}

通過這種方法，我們現在可以將調查中的實際評分與LLM的分數預測進行比較。這一比較提供了一個理想的數據集，以評估語言模型預測讀者興趣的能力。

結果和主要發現

研究結果相當強勁。為了理解其表現，我們可以觀察兩個關鍵指標。首先是Precision@5：LLM達到了56%的得分，這意味著當系統為用戶推薦其最上面5篇文章（從15篇中），平均來說（幾乎）3篇是該用戶在我們的調查中評分最高的文章。查看這些預測的分佈顯示出更令人印象深刻的結果：對於24%的用戶，系統正確識別了他們的4或5篇最佳文章。對於另外41%的用戶，它正確識別了他們的5篇最佳文章中的3篇。

為了將其置於背景中，如果我們隨機推薦文章，我們的精度僅會達到38.8%（有關詳細信息，請參見之前的中等文章）。即使是僅基於文章受歡迎程度的推薦（推薦大多數人閱讀的內容）也僅達到42.1%，而我們之前使用基於嵌入的技術的做法達到45.4%。

下面的圖形顯示了提升效果：雖然對用戶有任何形式的了解都比隨機猜測（隨機模型）要好，但基於LLM的方法表現最強。即使與我們複雜的基於嵌入的邏輯相比，LLM在預測準確性上也有顯著提升。

作為第二個評估指標，我們使用斯皮爾曼相關係數。其值為0.41，顯示出相對於我們基於嵌入的方法（0.17）有了顯著改善。這也表明LLM不僅在尋找相關文章方面更優秀，還能理解讀者可能對一篇文章的偏好程度。

超越性能：可解釋性的力量

LLM基於推薦的不同之處不僅在於其性能，還在於其能夠用自然語言解釋其決策的能力。以下是我們系統如何分析用戶的閱讀模式並解釋其推薦的示例（未顯示提示）：

用戶的閱讀歷史中有221篇文章

前5名比較：——————————————————————————–

Claude預測的前5名：1. Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten（得分：850，實際值：253.0）2. Warum wir den Umgang mit der Sonne neu lernen müssen（得分：800，實際值：757.0）3. Lohnt sich ein Speicher für Solarstrom vom Balkon?（得分：780，實際值：586.0）4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist«（得分：750，實際值：797.0）5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen（得分：720，實際值：766.0）

調查中的實際前5名：4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist«（值：797.0，預測得分：750）5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen（值：766.0，預測得分：720）2. Warum wir den Umgang mit der Sonne neu lernen müssen（值：757.0，預測得分：800）6. Abitur als Lotterie?（值：601.0，預測得分：650）3. Lohnt sich ein Speicher für Solarstrom vom Balkon?（值：586.0，預測得分：780）

性能指標：——————————————————————————–斯皮爾曼相關係數：0.673Precision@5：0.800

Claude的分析：——————————————————————————–1. 用戶閱讀歷史中的關鍵模式：- 對社會和政治問題有強烈興趣- 定期參與生活方式和個人發展內容- 對健康和保健主題感興趣- 經常閱讀關於經濟和金融問題的文章- 對批判性分析和評論作品的吸引- 對食物和烹飪內容的興趣

2. 評分解釋：

得分最高的文章：- “Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten”（850） – 與用戶對個人發展和生活方式內容的興趣一致- “Warum wir den Umgang mit der Sonne neu lernen müssen”（800） – 符合對健康和保健主題的興趣- “Lohnt sich ein Speicher für Solarstrom vom Balkon?”（780） – 與實用建議和經濟考慮的興趣相符

中等得分的文章：- “Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist”（750） – 符合對政治評論的興趣模式- “Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen”（720） – 符合對社會問題和批判性報導的興趣- “Abitur als Lotterie?”（650） – 與教育和社會主題的興趣一致

低得分的文章：- “Eine Brise Formel 1″（550） – 閱讀歷史中體育內容有限- “Reizender Absatz”（450） – 與表現出的興趣不太一致- “Hier wird jetzt auf ganz, ganz hohem Niveau gemeckert”（400） – 風格和主題與用戶偏好不太一致

該評分優先考慮與用戶在社會問題、實用建議和批判性分析方面表現出的興趣相匹配的文章，同時對體育和較輕內容的得分較低，因為這些內容在他們的閱讀歷史中出現得較少。

系統不僅僅作為黑箱運作，而是能夠清楚地說明為什麼它認為某篇文章對讀者可能感興趣：因為你經常閱讀有關實用建議和經濟問題的文章，你可能會發現這篇關於陽台太陽能儲存的成本效益分析特別相關。這種透明的推理方式可能會使推薦更具個性化和可信度。

結論

儘管我們的結果令人鼓舞，但仍需解決幾個挑戰。由於提示較長（每個用戶數百篇文章摘要），最大的挑戰是成本。單次推薦運行的成本約為每位用戶0.21美元，若擴展至全體讀者，則費用過於昂貴。測試高性能的開源模型可能會降低這些成本。此外，目前的實施相對較慢，每位用戶需要幾秒鐘。對於一個內容經常更新、讀者興趣有時甚至在一天內不斷變化的新聞平台，我們需要每天多次運行這些推薦以保持相關性。

此外，我們使用了單一的、簡單的提示，沒有進行任何提示工程或優化。通過系統性地改進提示，可能還有（顯著的）改進空間。[1] 此外，我們目前的實施僅使用文章標題和摘要，而未利用可用的元數據。我們可以通過納入其他信號（例如每篇文章的閱讀時間——用戶花了多長時間閱讀每篇文章）或整體文章受歡迎度來提高性能。不過，由於API成本高昂，運行迭代的評估管道目前並不是一個可行的選擇。

總的來說，強大的預測性能和自然語言解釋的結合表明，LLMs將在新聞推薦系統中成為一個有價值的工具。除此之外，它們還提供了一種新的方式來分析數字新聞中的用戶旅程。它們處理和解釋閱讀歷史與元數據的能力開啟了令人興奮的可能性：從理解內容旅程和主題進展到創建個性化的回顧總結。

Source link