帕特羅納斯人工智慧推出業界首款多模態LLM作為法官（MLLM-as-a-Judge）：旨在評估和優化將圖像輸入轉換為文本輸出的人工智慧系統

近年來，影像生成技術的整合進入各種平台，為提升用戶體驗開闢了新的途徑。然而，隨著這些多模態人工智慧（AI）系統的擴展，它們能處理和生成多種數據形式，如文字和影像，出現了“標題幻覺”的挑戰。這種現象發生在AI生成的影像描述中，包含不準確或不相關的細節，可能會降低用戶的信任感和參與度。傳統評估這些系統的方法通常依賴手動檢查，這既不具可擴展性也不高效，因此需要針對多模態AI應用的自動化和可靠的評估工具。

為了解決這些挑戰，Patronus AI推出了業界首個多模態LLM作為評估者（MLLM-as-a-Judge），旨在評估和優化將影像輸入轉換為文字輸出的AI系統。這個工具利用了Google的Gemini模型，因其平衡的判斷方法和一致的評分分佈而被選中，與OpenAI的GPT-4V等替代品相比，後者顯示出更高的自我中心性。MLLM-as-a-Judge符合Patronus AI致力於推進AI系統可擴展監管的承諾，為開發者提供評估和提升其多模態應用性能的手段。

從技術上講，MLLM-as-a-Judge能夠處理和評估影像到文字生成的任務。它提供內建的評估工具，通過分析文字的存在和位置、網格結構、空間方向和物體識別等屬性，創建影像的真實快照。這些評估工具包括以下標準：

標題描述主要物體

標題描述非主要物體

標題幻覺

標題幻覺（嚴格）

標題提及主要物體位置

這些評估工具使得對影像標題的全面評估成為可能，確保生成的描述準確反映視覺內容。除了驗證標題的準確性外，MLLM-as-a-Judge還可以用來測試產品截圖對用戶查詢的相關性，驗證表格數據的光學字符識別（OCR）提取的準確性，以及評估AI生成的品牌影像和標誌的真實性。

MLLM-as-a-Judge的一個實際應用是Etsy，這是一個專注於手工製作和復古產品的知名電子商務平台。Etsy的AI團隊利用生成式AI自動生成賣家上傳的產品影像的標題，簡化產品上架過程。然而，他們在多模態AI系統中遇到了質量問題，因為自動生成的標題經常包含錯誤和意外的輸出。為了解決這個問題，Etsy整合了Judge-Image，MLLM-as-a-Judge的一個組件，來評估和優化他們的影像標題系統。這一整合使Etsy能夠減少標題幻覺，從而提高產品描述的準確性，增強整體用戶體驗。

總之，隨著組織持續採用和擴展多模態AI系統，解決這些系統的不確定性變得至關重要。Patronus AI的MLLM-as-a-Judge提供了一個自動化的解決方案，用於評估和優化影像到文字的AI應用，減輕標題幻覺等問題。通過提供內建的評估工具並利用像Google Gemini這樣的先進模型，MLLM-as-a-Judge使開發者和組織能夠提升其多模態AI系統的可靠性和準確性，最終促進更大的用戶信任和參與。

查看技術細節。所有研究的功勞都歸於這個項目的研究人員。此外，歡迎在Twitter上關注我們，並別忘了加入我們的80k+ ML SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 帕特羅納斯人工智慧推出業界首款多模態LLM作為法官MLLMasaJudge旨在評估和優化將圖像輸入轉換為文本輸出的人工智慧系統