近年來,影像生成技術的整合進入各種平台,為提升用戶體驗開闢了新的途徑。然而,隨著這些多模態人工智慧(AI)系統的擴展,它們能處理和生成多種數據形式,如文字和影像,出現了“標題幻覺”的挑戰。這種現象發生在AI生成的影像描述中,包含不準確或不相關的細節,可能會降低用戶的信任感和參與度。傳統評估這些系統的方法通常依賴手動檢查,這既不具可擴展性也不高效,因此需要針對多模態AI應用的自動化和可靠的評估工具。
為了解決這些挑戰,Patronus AI推出了業界首個多模態LLM作為評估者(MLLM-as-a-Judge),旨在評估和優化將影像輸入轉換為文字輸出的AI系統。這個工具利用了Google的Gemini模型,因其平衡的判斷方法和一致的評分分佈而被選中,與OpenAI的GPT-4V等替代品相比,後者顯示出更高的自我中心性。MLLM-as-a-Judge符合Patronus AI致力於推進AI系統可擴展監管的承諾,為開發者提供評估和提升其多模態應用性能的手段。
從技術上講,MLLM-as-a-Judge能夠處理和評估影像到文字生成的任務。它提供內建的評估工具,通過分析文字的存在和位置、網格結構、空間方向和物體識別等屬性,創建影像的真實快照。這些評估工具包括以下標準:
- 標題描述主要物體
- 標題描述非主要物體
- 標題幻覺
- 標題幻覺(嚴格)
- 標題提及主要物體位置
這些評估工具使得對影像標題的全面評估成為可能,確保生成的描述準確反映視覺內容。除了驗證標題的準確性外,MLLM-as-a-Judge還可以用來測試產品截圖對用戶查詢的相關性,驗證表格數據的光學字符識別(OCR)提取的準確性,以及評估AI生成的品牌影像和標誌的真實性。
MLLM-as-a-Judge的一個實際應用是Etsy,這是一個專注於手工製作和復古產品的知名電子商務平台。Etsy的AI團隊利用生成式AI自動生成賣家上傳的產品影像的標題,簡化產品上架過程。然而,他們在多模態AI系統中遇到了質量問題,因為自動生成的標題經常包含錯誤和意外的輸出。為了解決這個問題,Etsy整合了Judge-Image,MLLM-as-a-Judge的一個組件,來評估和優化他們的影像標題系統。這一整合使Etsy能夠減少標題幻覺,從而提高產品描述的準確性,增強整體用戶體驗。
總之,隨著組織持續採用和擴展多模態AI系統,解決這些系統的不確定性變得至關重要。Patronus AI的MLLM-as-a-Judge提供了一個自動化的解決方案,用於評估和優化影像到文字的AI應用,減輕標題幻覺等問題。通過提供內建的評估工具並利用像Google Gemini這樣的先進模型,MLLM-as-a-Judge使開發者和組織能夠提升其多模態AI系統的可靠性和準確性,最終促進更大的用戶信任和參與。
查看技術細節。所有研究的功勞都歸於這個項目的研究人員。此外,歡迎在Twitter上關注我們,並別忘了加入我們的80k+ ML SubReddit。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!