人工智慧 (Artificial Intelligence) 和機器學習 (Machine Learning) 的領域完全依賴於數據。每個人都會接收到來自不同來源的數據,例如社交媒體、醫療保健、金融等,而這些數據對於自然語言處理 (Natural Language Processing, NLP) 的應用非常有用。但即使有這麼多數據,對於特定任務來說,能夠直接使用的數據仍然很少。找到高品質且有用的數據,並且有良好過濾的數據是一項困難的任務。特別是在為不同語言開發 NLP 模型時,大多數語言缺乏數據成為限制,這妨礙了在代表性不足的語言 (Under-Represented Languages, ULs) 上的進展。
像新聞摘要、情感分析、問題回答或虛擬助手的開發等新興任務,都非常依賴於高資源語言中的數據可用性。這些任務依賴於語言識別、自動語音識別 (Automatic Speech Recognition, ASR) 或光學字符識別 (Optical Character Recognition, OCR) 等技術,而這些技術在代表性不足的語言中大多不可用。因此,建立數據集並評估對於 UL 語言使用者有益的任務模型是非常重要的。
最近,來自 GoogleAI 的一組研究人員提出了一個基準,稱為 XTREME-UP (Under-Represented and User-Centric with Paucal Data),它在少量學習的環境中評估多語言模型在以使用者為中心的任務上的表現。這個基準主要關注技術使用者在日常生活中經常執行的活動,例如信息訪問和輸入/輸出活動,這些活動能夠促進其他技術的運作。XTREME-UP 的三個主要特點是:使用稀缺數據、以使用者為中心的設計,以及專注於代表性不足的語言。
透過 XTREME-UP,研究人員引入了一個標準化的多語言內部微調設置,取代了傳統的跨語言零樣本選項。這種方法考慮到在特定語言中可以在 8 小時內生成或標註的數據量,旨在為 UL 語言提供更有用的評估設置。
XTREME-UP 評估了 88 種代表性不足的語言在 9 種重要的以使用者為中心的技術中的表現,其中一些包括自動語音識別 (ASR)、光學字符識別 (OCR)、機器翻譯 (Machine Translation, MT) 和一般實用的信息訪問任務。研究人員專門為 OCR、自動完成、語義解析和音譯等操作開發了新的數據集,以評估語言模型的能力。他們還改進和完善了同一基準中其他任務的現有數據集。
XTREME-UP 的一個關鍵能力是評估各種建模情況,包括僅文本的情況和包含視覺、音頻和文本輸入的多模態情況。它還提供了監督參數調整和上下文學習的方法,允許對各種建模方法進行全面評估。XTREME-UP 中的任務包括促進語言技術的訪問,作為更大系統的一部分進行信息訪問,例如問題回答、信息提取和虛擬助手,然後使信息能夠以說話者的語言可訪問。
因此,XTREME-UP 是一個很好的基準,解決了在高度多語言的 NLP 系統中數據稀缺的挑戰。它是一個針對代表性不足語言的標準化評估框架,對未來的 NLP 研究和發展非常有用。
查看論文和 GitHub。別忘了加入我們的 21,000 多名 ML 子 Reddit、Discord 頻道和電子郵件通訊,這裡我們分享最新的 AI 研究新聞、酷炫的 AI 項目等。如果您對上述文章有任何問題或我們遺漏了什麼,隨時可以通過電子郵件聯繫我們:Asif@marktechpost.com
🚀 在 AI 工具俱樂部查看數百個 AI 工具
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!