在19世紀末的發現
在19世紀末,科學家們發現,遷徙的鳥類會發出特定的夜間飛行叫聲,這些叫聲就像是它們的“聲音指紋”。當1950年代麥克風開始商業化時,科學家們開始在夜間錄製鳥類的叫聲。法恩斯沃斯 (Farnsworth) 在1990年代領導了一些聲音生態學的研究。但即使在那時,捕捉短暫的叫聲仍然很具挑戰性,因為有些叫聲的頻率接近人類聽覺的邊界。科學家們最終擁有數千個錄音帶,必須在查看聲譜圖的同時,實時篩查這些錄音。雖然數位技術讓錄音變得更容易,但法恩斯沃斯說,“持續存在的問題是,收集大量音頻數據變得越來越簡單,但分析這些數據卻變得越來越困難。”
與機器學習的合作
然後,法恩斯沃斯遇到了胡安·巴布羅·貝洛 (Juan Pablo Bello),他是紐約大學 (NYU) 音樂與音頻研究實驗室的主任。貝洛剛完成一個使用機器學習來識別紐約市城市噪音污染來源的項目,他同意接手夜間飛行叫聲的問題。他組建了一個團隊,包括法國的機器聆聽專家文森特·洛斯坦倫 (Vincent Lostanlen),於是2015年,BirdVox計畫誕生,旨在自動化這個過程。法恩斯沃斯說:“每個人都在想,‘當這個難題被解決時,這將成為一個非常豐富的信息來源。’”但在一開始,洛斯坦倫回憶道,“甚至沒有任何跡象顯示這是可行的。”機器學習似乎無法接近像法恩斯沃斯這樣的專家的聽力能力。
訓練BirdVoxDetect
貝洛說:“安德魯 (Andrew) 是我們的英雄。我們希望用電腦模仿的整個過程就是安德魯。”
他們開始訓練BirdVoxDetect,這是一個神經網絡,目的是忽略像雨水損壞麥克風所產生的低嗡嗡聲等故障。接著,他們訓練系統來檢測飛行叫聲,這些叫聲在不同物種之間甚至同一物種內都有所不同,並且很容易與汽車警報聲或春蛙的叫聲混淆。洛斯坦倫說,這個挑戰類似於智能音箱在聽取其獨特的“喚醒詞”時所面臨的問題,只不過在這種情況下,目標聲音與麥克風之間的距離要大得多(這意味著需要補償更多的背景噪音)。當然,科學家們不能像“Alexa”或“Hey Google”那樣選擇一個獨特的聲音作為觸發詞。“對於鳥類來說,我們並不真正做這個選擇。查爾斯·達爾文 (Charles Darwin) 為我們做了這個選擇,”他開玩笑說。幸運的是,他們有大量的訓練數據可供使用——法恩斯沃斯的團隊手動標註了在伊薩卡 (Ithaca) 收集的數千小時錄音。
分類飛行叫聲的挑戰
隨著BirdVoxDetect被訓練來檢測飛行叫聲,接下來又面臨一個困難的任務:教它根據物種對檢測到的叫聲進行分類,這是連少數專業鳥類觀察者都難以用耳朵做到的。為了解決不確定性,並且因為並不是每個物種都有訓練數據,他們決定採用分層系統。例如,對於某個叫聲,BirdVoxDetect可能能夠識別鳥類的目和科,即使它不確定具體的物種——就像一位鳥類觀察者至少能夠識別出某個叫聲是某種鶯的叫聲,不論是黃臀鶯還是栗側鶯。在訓練過程中,當神經網絡混淆了在分類樹上更接近的鳥類時,會受到較少的懲罰。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!