事實基準：評估大型語言模型事實性的全新標準

責任與安全

發布日期 2024年12月17日
作者

FACTS 團隊

我們的全面基準和線上排行榜提供了一個重要的標準，來衡量大型語言模型（LLMs）在提供的資料中生成回應的準確性，並避免錯誤資訊的出現。

大型語言模型（LLMs）正在改變我們獲取資訊的方式，但它們的事實準確性仍然不完美。它們可能會「幻覺」出錯誤資訊，尤其是在面對複雜的輸入時。這可能會削弱人們對 LLMs 的信任，並限制它們在現實世界的應用。

今天，我們推出了 FACTS Grounding，一個全面的基準，用來評估 LLMs 生成的回應是否不僅在事實上準確，還能提供足夠詳細的答案來滿足使用者的需求。

我們希望這個基準能促進整個行業在事實準確性和基礎資料方面的進步。為了追蹤進展，我們也在 Kaggle 上推出了 FACTS 排行榜。我們已經使用 FACTS Grounding 測試了領先的 LLMs，並將它們的基礎資料分數填入初始排行榜。我們將隨著領域的發展持續維護和更新排行榜。

當前排行榜排名

FACTS Grounding 數據集

為了準確評估任何給定 LLM 的事實準確性和基礎資料，FACTS Grounding 數據集包含 1,719 個範例，每個範例都經過精心設計，需要長篇的回應，並基於提供的上下文文件。每個範例包含一份文件、一個系統指令，要求 LLM 僅參考提供的文件，還有一個用戶請求。

來自 FACTS Grounding 數據集的一個範例

所有範例分為「公開」集（860）和「私密」集（859）。我們今天釋出公開集，讓任何人都可以用來評估 LLM。當然，我們知道基準污染和排行榜作弊的問題很重要，因此根據行業標準做法，我們保留私密評估集。FACTS 排行榜的分數是公開和私密集的平均表現。

為了確保輸入的多樣性，FACTS Grounding 的範例包括各種長度的文件，最多可達 32,000 個標記（約 20,000 字），涵蓋金融、科技、零售、醫療和法律等領域。用戶請求同樣多樣化，包括摘要、問答生成和重寫任務。我們沒有包括需要創造力、數學或複雜推理的範例，因為這些能力可能需要模型運用更高級的推理能力。

提示分佈

領先 LLM 的集體評判

要在給定的範例中成功，LLM 必須綜合文件中的複雜資訊，並生成一個長篇回應，這個回應不僅要全面回答用戶請求，還必須完全基於該文件。

FACTS Grounding 自動評估模型回應，使用三個前沿 LLM 評審——即 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet。我們選擇不同的評審組合，以減少評審對自己模型家族的回應給予更高分數的潛在偏見。自動評審模型經過全面評估，以找到最佳的評審提示模板，並驗證與人類評審者的一致性。

每個 FACTS Grounding 範例分兩個階段進行評審。首先，評估回應的合格性，如果回應未能充分滿足用戶請求，則不合格。其次，如果回應完全基於提供的文件中的資訊，且沒有幻覺，則判定為事實準確。

在多個 AI 評審模型分別評估給定 LLM 回應的合格性和基礎準確性後，結果將匯總，以確定 LLM 是否成功處理該範例。整體基礎任務的最終分數是所有評審模型在所有範例中的分數平均值。更多有關我們 FACTS Grounding 評估方法的細節，請參見我們的論文。

一個事實正確的回應，如果未能妥善解決用戶的請求，則會在基準範例中失敗。這裡我們看到三個模型回應的例子，自動 LLM 評審認為不合格。

FACTS Grounding 將持續演進

我們意識到基準可能會迅速被進步所超越，因此這次推出的 FACTS Grounding 基準和排行榜只是開始。事實準確性和基礎資料是將塑造 LLM 和更廣泛 AI 系統未來成功和實用性的關鍵因素，我們計劃隨著領域的進展，不斷增長和改進 FACTS Grounding，持續提高標準。

我們鼓勵 AI 社群參與 FACTS Grounding，評估他們的模型在公開範例集上的表現，或提交他們的模型進行評估。我們相信，全面的基準方法，加上持續的研究和開發，將不斷改善 AI 系統。

致謝

FACTS 是 Google DeepMind 和 Google Research 的合作項目。FACTS Grounding 由以下人員主導：Alon Jacovi、Andrew Wang、Chris Alberti、Connie Tao、Dipanjan Das、Jon Lipovetz、Kate Olszewska、Lukas Haas、Michelle Liu 和 Nate Keating。

我們也非常感謝以下人員的貢獻：Adam Bloniarz、Carl Saroufim、Corey Fry、Dror Marcus、Doron Kukliansky、Gaurav Singh Tomar、James Swirhun、Jinwei Xing、Lily Wang、Madhu Gurumurthy、Michael Aaron、Moran Ambar、Rachana Fellinger、Rui Wang、Zizhao Zhang 和 Sasha Goldshtein。

我們還要感謝 Avinatan Hassidim、D. Sculley、Fernando Pereira、Koray Kavukcuoglu、Slav Petrov、Ya Xu 和 Yossi Matias 的持續支持。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 事實基準評估大型語言模型事實性的全新標準