人工智慧的決策訓練
從機器人技術到醫學再到政治科學,各個領域都在努力訓練人工智慧 (AI) 系統,使其能夠做出有意義的決策。例如,使用人工智慧系統來智能控制擁擠城市的交通,可以幫助駕駛者更快到達目的地,同時提高安全性和可持續性。
不幸的是,教導人工智慧系統做出良好決策並不是一件容易的事。
強化學習模型是這些人工智慧決策系統的基礎,但當面對訓練任務的小變化時,它們仍然經常失敗。以交通為例,一個模型可能在控制不同速度限制、車道數量或交通模式的交叉口時會遇到困難。
提升強化學習模型的可靠性
為了提高強化學習模型在複雜任務中的可靠性,麻省理工學院 (MIT) 的研究人員提出了一種更有效的訓練演算法。
這個演算法會策略性地選擇最佳的任務來訓練人工智慧代理,讓它能夠有效地執行一系列相關任務。在交通信號控制的例子中,每個任務可以是城市中一個交叉口。
通過專注於對演算法整體效能貢獻最大的少數交叉口,這種方法在保持訓練成本低的同時,最大化了效能。
研究人員發現,他們的技術在一系列模擬任務中比標準方法效率高出五到五十倍。這種效率的提升幫助演算法更快地學習到更好的解決方案,最終改善了人工智慧代理的表現。
麻省理工學院的高級作者Cathy Wu表示:“我們能夠看到驚人的性能提升,這是通過一個非常簡單的演算法來實現的,因為我們跳出了傳統的思維框架。一個不太複雜的演算法更有可能被社群採用,因為它更容易實施,其他人也更容易理解。”
她的合作者包括首席作者Jung-Hoon Cho(土木與環境工程研究生)、Vindula Jayawardana(電機與計算機科學研究生)和Sirui Li(數據、系統與社會研究所研究生)。這項研究將在神經信息處理系統會議上發表。
尋找平衡點
為了訓練一個演算法來控制城市中多個交叉口的交通信號,工程師通常會在兩種主要方法之間選擇。她可以為每個交叉口獨立訓練一個演算法,只使用該交叉口的數據,或者使用所有交叉口的數據訓練一個更大的演算法,然後將其應用到每個交叉口。
但每種方法都有其缺點。為每個任務(例如某個交叉口)訓練一個獨立的演算法是一個耗時的過程,需要大量的數據和計算,而為所有任務訓練一個演算法往往會導致表現不佳。
Wu和她的合作者尋求這兩種方法之間的最佳平衡點。
在他們的方法中,他們選擇一組任務,並為每個任務獨立訓練一個演算法。重要的是,他們策略性地選擇最有可能提高演算法在所有任務上整體表現的個別任務。
他們利用強化學習領域中的一個常見技巧,稱為零樣本轉移學習,這種方法可以將已經訓練好的模型應用到新任務上,而不需要進一步訓練。使用轉移學習,模型通常在新鄰近任務上表現非常好。
Wu表示:“我們知道理想的情況是對所有任務進行訓練,但我們想知道是否可以只對這些任務的一部分進行訓練,然後將結果應用到所有任務上,仍然能看到性能提升。”
模型基礎轉移學習 (MBTL)
為了確定應選擇哪些任務以最大化預期表現,研究人員開發了一種名為模型基礎轉移學習 (MBTL) 的演算法。
MBTL演算法有兩個部分。首先,它建模每個演算法如果獨立在一個任務上訓練的表現。然後,它建模每個演算法在轉移到其他任務時表現的下降程度,這個概念稱為泛化性能。
明確建模泛化性能使得MBTL能夠估算在新任務上訓練的價值。
MBTL按順序進行,首先選擇能帶來最高性能增益的任務,然後選擇提供最大後續邊際改進的其他任務。
由於MBTL只專注於最有前景的任務,它可以顯著提高訓練過程的效率。
降低訓練成本
當研究人員在模擬任務上測試這種技術時,包括控制交通信號、管理即時速度建議和執行幾個經典控制任務,結果顯示其效率比其他方法高出五到五十倍。
這意味著他們可以用更少的數據達到相同的解決方案。例如,通過50倍的效率提升,MBTL演算法只需在兩個任務上訓練,就能達到與使用100個任務數據的標準方法相同的表現。
Wu表示:“從這兩種主要方法的角度來看,這意味著其他98個任務的數據並不是必需的,或者對所有100個任務進行訓練會使演算法感到困惑,因此最終的表現不如我們的。”
使用MBTL,即使增加少量的額外訓練時間,也可能導致性能大幅提升。
未來,研究人員計劃設計可以擴展到更複雜問題的MBTL演算法,例如高維任務空間。他們也希望將他們的方法應用於現實世界的問題,特別是在下一代移動系統中。
這項研究部分由美國國家科學基金會的CAREER獎、Kwanjeong教育基金會的博士獎學金計劃以及亞馬遜機器人博士獎學金資助。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!