自然影像資料集的挑戰
想像一下,如果要拍攝北美約11,000種樹木的照片,你只會得到自然影像資料集中數百萬張照片的一小部分。這些龐大的照片收藏,包括蝴蝶和座頭鯨,對生態學家來說是很好的研究工具,因為它們提供了生物獨特行為、稀有情況、遷徙模式以及對污染和氣候變化的反應的證據。
自動化的研究助手
儘管自然影像資料集很全面,但目前還不夠實用。搜尋這些資料庫並找出最相關的圖片非常耗時。使用自動化的研究助手,或者稱為多模態視覺語言模型(VLMs)的人工智慧系統,會更有效。這些模型同時訓練文本和圖片,能更容易找到細節,例如照片背景中的特定樹木。
VLMs能幫助自然研究者嗎?
麻省理工學院(MIT)的計算機科學與人工智慧實驗室(CSAIL)、倫敦大學學院(University College London)、iNaturalist等團隊設計了一個性能測試來了解VLMs能多好地協助自然研究者進行影像檢索。每個VLM的任務是從團隊的“INQUIRE”資料集中找到並重新整理最相關的結果,該資料集包含500萬張野生動物照片和250個來自生態學家及其他生物多樣性專家的搜尋提示。
尋找特別的青蛙
在這些評估中,研究人員發現較大且更先進的VLMs,因為訓練了更多數據,有時能幫助研究者找到他們想要的結果。這些模型在簡單的視覺內容查詢上表現良好,例如識別珊瑚礁上的碎片,但在需要專業知識的查詢上則表現不佳,例如識別特定的生物條件或行為。例如,VLMs能相對容易地找到沙灘上的水母,但在處理更技術性的提示如“綠色青蛙的無色素症”時則遇到困難,這種情況會限制它們的皮膚變成黃色的能力。
模型的改進需求
他們的研究結果顯示,這些模型需要更多特定領域的訓練數據來處理困難的查詢。MIT的博士生愛德華·文德羅(Edward Vendrow)認為,通過熟悉更多有用的數據,VLMs未來可以成為優秀的研究助手。“我們希望建立檢索系統,能找到科學家在監測生物多樣性和分析氣候變化時所尋找的精確結果,”文德羅說。“多模態模型目前還不太理解更複雜的科學語言,但我們相信INQUIRE將成為追蹤它們在理解科學術語方面進步的重要基準,最終幫助研究者自動找到他們所需的精確圖片。”
實驗結果
團隊的實驗顯示,較大的模型在簡單和複雜的搜尋中都更有效,因為它們的訓練數據更廣泛。他們首先使用INQUIRE資料集測試VLMs是否能將500萬張圖片縮小到最相關的100個結果(也稱為“排名”)。對於像“有人工結構和碎片的珊瑚礁”這樣的簡單查詢,相對較大的模型如“SigLIP”能找到匹配的圖片,而較小的CLIP模型則表現不佳。根據文德羅的說法,較大的VLMs在排名更困難的查詢時“才剛開始有用”。
重新排名的挑戰
文德羅和他的同事還評估了多模態模型重新排名這100個結果的能力,重新組織哪些圖片對搜尋最相關。在這些測試中,即使是訓練在更精選數據上的大型LLMs,如GPT-4o,表現也不佳:它的精確度分數僅為59.6%,是所有模型中最高的分數。
INQUIRE資料集的建立
INQUIRE資料集包括基於與生態學家、生物學家、海洋學家和其他專家的討論而產生的搜尋查詢,這些查詢涉及他們希望尋找的圖片類型,包括動物獨特的生理條件和行為。一組標註者花了180小時使用這些提示搜尋iNaturalist資料集,仔細檢查約200,000個結果,以標記33,000個符合提示的匹配項。
標註者的工作
例如,標註者使用了像“使用塑膠垃圾作為殼的寄居蟹”和“帶有綠色‘26’標籤的加州禿鷹”這樣的查詢,以識別更大影像資料集中描繪這些特定稀有事件的子集。
模型的挑戰
然後,研究人員使用相同的搜尋查詢來檢查VLMs能多好地檢索iNaturalist的圖片。標註者的標籤顯示出模型在理解科學家的關鍵詞時遇到的困難,因為它們的結果包括之前標記為與搜尋無關的圖片。例如,VLMs對“有火災傷痕的紅木樹”的結果有時會包含沒有任何標記的樹的圖片。
數據的精心策劃
麻省理工學院的霍默·A·伯內爾職業發展助理教授薩拉·比瑞(Sara Beery)表示:“這是對數據的精心策劃,重點在於捕捉生態學和環境科學研究領域的真實科學查詢範例。這對於擴展我們對VLMs在這些潛在影響科學環境中的當前能力的理解至關重要。它還指出了當前研究中的空白,我們現在可以著手解決,特別是在複雜的組成查詢、技術術語和細微差別方面。”
未來的展望
文德羅表示:“我們的研究結果表明,一些視覺模型已經足夠精確,可以幫助野生動物科學家檢索某些圖片,但許多任務對於即使是最大的最佳模型來說仍然太困難。”他補充說:“雖然INQUIRE專注於生態學和生物多樣性監測,但其查詢的多樣性意味著在INQUIRE上表現良好的VLMs可能在其他觀察密集型領域分析大型影像集合時也會表現出色。”
改善查詢系統
為了進一步推進他們的項目,研究人員正在與iNaturalist合作開發一個查詢系統,以更好地幫助科學家和其他好奇的人找到他們真正想要看到的圖片。他們的工作演示允許用戶按物種篩選搜尋,從而更快地發現相關結果,例如貓的多樣眼色。文德羅和共同主筆奧米羅斯·潘塔茲(Omiros Pantazis)也希望通過增強當前模型來改善重新排名系統,以提供更好的結果。
生物多樣性數據的挑戰
匹茲堡大學副教授賈斯汀·基茲斯(Justin Kitzes)強調了INQUIRE揭示次級數據的能力。“生物多樣性數據集正在迅速變得過於龐大,無法讓任何個別科學家進行審查,”基茲斯說,他並未參與這項研究。“這篇論文引起了人們對一個困難且未解決問題的關注,即如何有效地通過這些數據進行搜尋,提出的問題不僅僅是‘這裡有誰’,而是詢問個別特徵、行為和物種互動。能夠高效且準確地揭示這些更複雜的現象,對於基礎科學和生態學及保護的實際影響至關重要。”
研究團隊的合作
文德羅、潘塔茲和比瑞與iNaturalist的軟體工程師亞歷山大·謝潑德(Alexander Shepard)、倫敦大學學院的教授加布里埃爾·布羅斯托(Gabriel Brostow)和凱特·瓊斯(Kate Jones)、愛丁堡大學的副教授及共同主筆奧辛·麥克·阿奧達(Oisin Mac Aodha)以及麻州大學阿默斯特分校的助理教授格蘭特·范·霍恩(Grant Van Horn)共同撰寫了這篇論文。他們的工作部分得到了愛丁堡大學生成性人工智慧實驗室、美國國家科學基金會/加拿大自然科學與工程研究理事會全球人工智慧與生物多樣性變化中心、英國皇家學會研究獎助金以及世界自然基金會英國的生物健康計劃的支持。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!