星期三, 14 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

事實基準:評估大型語言模型事實性的全新標準

2024-12-17
in AI 綜合新聞
0 0
0
事實基準:評估大型語言模型事實性的全新標準
Share on FacebookShare on Twitter
Your Ad


責任與安全

發布日期 2024年12月17日
作者

FACTS 團隊

我們的全面基準和線上排行榜提供了一個重要的標準,來衡量大型語言模型(LLMs)在提供的資料中生成回應的準確性,並避免錯誤資訊的出現。

大型語言模型(LLMs)正在改變我們獲取資訊的方式,但它們的事實準確性仍然不完美。它們可能會「幻覺」出錯誤資訊,尤其是在面對複雜的輸入時。這可能會削弱人們對 LLMs 的信任,並限制它們在現實世界的應用。

今天,我們推出了 FACTS Grounding,一個全面的基準,用來評估 LLMs 生成的回應是否不僅在事實上準確,還能提供足夠詳細的答案來滿足使用者的需求。

我們希望這個基準能促進整個行業在事實準確性和基礎資料方面的進步。為了追蹤進展,我們也在 Kaggle 上推出了 FACTS 排行榜。我們已經使用 FACTS Grounding 測試了領先的 LLMs,並將它們的基礎資料分數填入初始排行榜。我們將隨著領域的發展持續維護和更新排行榜。

當前排行榜排名

FACTS Grounding 數據集

為了準確評估任何給定 LLM 的事實準確性和基礎資料,FACTS Grounding 數據集包含 1,719 個範例,每個範例都經過精心設計,需要長篇的回應,並基於提供的上下文文件。每個範例包含一份文件、一個系統指令,要求 LLM 僅參考提供的文件,還有一個用戶請求。

來自 FACTS Grounding 數據集的一個範例

所有範例分為「公開」集(860)和「私密」集(859)。我們今天釋出公開集,讓任何人都可以用來評估 LLM。當然,我們知道基準污染和排行榜作弊的問題很重要,因此根據行業標準做法,我們保留私密評估集。FACTS 排行榜的分數是公開和私密集的平均表現。

為了確保輸入的多樣性,FACTS Grounding 的範例包括各種長度的文件,最多可達 32,000 個標記(約 20,000 字),涵蓋金融、科技、零售、醫療和法律等領域。用戶請求同樣多樣化,包括摘要、問答生成和重寫任務。我們沒有包括需要創造力、數學或複雜推理的範例,因為這些能力可能需要模型運用更高級的推理能力。

提示分佈

領先 LLM 的集體評判

要在給定的範例中成功,LLM 必須綜合文件中的複雜資訊,並生成一個長篇回應,這個回應不僅要全面回答用戶請求,還必須完全基於該文件。

FACTS Grounding 自動評估模型回應,使用三個前沿 LLM 評審——即 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet。我們選擇不同的評審組合,以減少評審對自己模型家族的回應給予更高分數的潛在偏見。自動評審模型經過全面評估,以找到最佳的評審提示模板,並驗證與人類評審者的一致性。

每個 FACTS Grounding 範例分兩個階段進行評審。首先,評估回應的合格性,如果回應未能充分滿足用戶請求,則不合格。其次,如果回應完全基於提供的文件中的資訊,且沒有幻覺,則判定為事實準確。

在多個 AI 評審模型分別評估給定 LLM 回應的合格性和基礎準確性後,結果將匯總,以確定 LLM 是否成功處理該範例。整體基礎任務的最終分數是所有評審模型在所有範例中的分數平均值。更多有關我們 FACTS Grounding 評估方法的細節,請參見我們的論文。

一個事實正確的回應,如果未能妥善解決用戶的請求,則會在基準範例中失敗。這裡我們看到三個模型回應的例子,自動 LLM 評審認為不合格。

FACTS Grounding 將持續演進

我們意識到基準可能會迅速被進步所超越,因此這次推出的 FACTS Grounding 基準和排行榜只是開始。事實準確性和基礎資料是將塑造 LLM 和更廣泛 AI 系統未來成功和實用性的關鍵因素,我們計劃隨著領域的進展,不斷增長和改進 FACTS Grounding,持續提高標準。

我們鼓勵 AI 社群參與 FACTS Grounding,評估他們的模型在公開範例集上的表現,或提交他們的模型進行評估。我們相信,全面的基準方法,加上持續的研究和開發,將不斷改善 AI 系統。

致謝

FACTS 是 Google DeepMind 和 Google Research 的合作項目。FACTS Grounding 由以下人員主導:Alon Jacovi、Andrew Wang、Chris Alberti、Connie Tao、Dipanjan Das、Jon Lipovetz、Kate Olszewska、Lukas Haas、Michelle Liu 和 Nate Keating。

我們也非常感謝以下人員的貢獻:Adam Bloniarz、Carl Saroufim、Corey Fry、Dror Marcus、Doron Kukliansky、Gaurav Singh Tomar、James Swirhun、Jinwei Xing、Lily Wang、Madhu Gurumurthy、Michael Aaron、Moran Ambar、Rachana Fellinger、Rui Wang、Zizhao Zhang 和 Sasha Goldshtein。

我們還要感謝 Avinatan Hassidim、D. Sculley、Fernando Pereira、Koray Kavukcuoglu、Slav Petrov、Ya Xu 和 Yossi Matias 的持續支持。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 事實基準評估大型語言模型事實性的全新標準
Previous Post

我們正在更新我們的生成式人工智慧禁止使用政策。

Next Post

情報官員警告警方美國城市尚未準備好應對敵對無人機

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
情報官員警告警方美國城市尚未準備好應對敵對無人機

情報官員警告警方美國城市尚未準備好應對敵對無人機

研究人員來自Sakana AI推出NAMMs:針對高效能與高效能變壓器模型的最佳化記憶體管理

研究人員來自Sakana AI推出NAMMs:針對高效能與高效能變壓器模型的最佳化記憶體管理

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。