家用機器人訓練的挑戰
一個在工廠訓練的家用機器人,當被放到使用者的廚房時,可能無法有效地清洗水槽或倒垃圾,因為這個新環境和它的訓練空間不同。
為了避免這種情況,工程師們通常會努力讓模擬的訓練環境與實際使用的環境盡可能相似。
然而,來自麻省理工學院 (MIT) 和其他地方的研究人員發現,儘管這是傳統的智慧,有時在完全不同的環境中訓練人工智慧 (AI) 代理人,反而能讓它表現得更好。
他們的研究結果顯示,在某些情況下,在一個不那麼不確定或“嘈雜”的世界中訓練模擬的 AI 代理人,使它的表現優於在同一個嘈雜世界中訓練的競爭 AI 代理人。
研究人員稱這一意外現象為“室內訓練效應”。
麻省理工學院媒體實驗室的研究助理塞瑞娜·博諾 (Serena Bono) 解釋說:“如果我們在一個沒有噪音的室內環境學習打網球,我們可能更容易掌握不同的擊球方式。然後,如果我們轉到一個更嘈雜的環境,比如有風的網球場,我們打得好的機率會比在有風的環境中學習時更高。”
研究人員通過訓練 AI 代理人玩 Atari 遊戲來研究這一現象,並在遊戲中加入了一些不可預測的元素。他們驚訝地發現,室內訓練效應在不同的 Atari 遊戲和遊戲變體中持續出現。
他們希望這些結果能促進更多研究,以開發更好的 AI 代理人訓練方法。
哈佛大學的研究生斯潘丹·馬丹 (Spandan Madan) 補充說:“這是一個全新的思考方向。我們不必試圖讓訓練和測試環境完全匹配,我們可以構建模擬環境,讓 AI 代理人學習得更好。”
博諾和馬丹的論文還有其他研究者參與,包括麻省理工學院的研究生伊沙恩·格羅弗 (Ishaan Grover)、耶魯大學的研究生毛雅須田 (Mao Yasueda)、麻省理工學院媒體實驗室的媒體藝術與科學教授辛西婭·布雷茲爾 (Cynthia Breazeal)、哈佛大學的安·王計算機科學教授漢斯彼得·菲斯特 (Hanspeter Pfister) 以及哈佛醫學院的教授加布里埃爾·克雷曼 (Gabriel Kreiman)。這項研究將在人工智慧協會會議上發表。
訓練的困難
研究人員著手探索為什麼強化學習代理人在測試與其訓練空間不同的環境時,表現往往不佳。
強化學習是一種試錯的方法,代理人探索訓練空間,學習採取能最大化獎勵的行動。
研究團隊開發了一種技術,明確地在強化學習問題的一個元素——轉移函數中添加一定量的噪音。轉移函數定義了代理人根據所選擇的行動從一個狀態轉移到另一個狀態的概率。
例如,當代理人在玩吃豆人 (Pac-Man) 時,轉移函數可能定義了遊戲板上鬼魂向上、向下、向左或向右移動的概率。在標準的強化學習中,AI 會使用相同的轉移函數進行訓練和測試。
研究人員在這種傳統方法中向轉移函數添加噪音,結果如預期地損害了代理人在吃豆人中的表現。
但是,當研究人員在沒有噪音的吃豆人遊戲中訓練代理人,然後在一個注入噪音的轉移函數環境中測試它時,它的表現卻比在嘈雜遊戲中訓練的代理人更好。
馬丹表示:“經驗法則是,在訓練期間盡可能準確地捕捉部署條件的轉移函數,這樣才能獲得最佳效果。我們真的對這一見解進行了徹底的測試,因為我們自己都不敢相信。”
向轉移函數注入不同量的噪音讓研究人員能夠測試許多環境,但這並沒有創造出真實的遊戲。噪音越多,鬼魂隨機傳送到不同方格的可能性就越大。
為了查看室內訓練效應是否出現在正常的吃豆人遊戲中,他們調整了基本概率,使鬼魂正常移動,但更有可能向上和向下移動,而不是向左和向右。在這些真實的遊戲中,訓練於無噪音環境的 AI 代理人仍然表現更好。
博諾說:“這不僅僅是因為我們添加噪音的方式來創建臨時環境。這似乎是強化學習問題的一個特性,而這一點更讓人驚訝。”
探索的解釋
當研究人員深入探討尋找解釋時,他們發現 AI 代理人在探索訓練空間時有一些相關性。
當兩個 AI 代理人主要探索相同的區域時,在無噪音環境中訓練的代理人表現更好,這可能是因為它更容易在沒有噪音干擾的情況下學習遊戲規則。
如果他們的探索模式不同,那麼在嘈雜環境中訓練的代理人往往表現更好。這可能是因為該代理人需要理解在無噪音環境中無法學習的模式。
博諾解釋說:“如果我只在無噪音環境中學會用正手擊球,但在嘈雜環境中我還需要用反手擊球,那麼我在無噪音環境中的表現就不會那麼好。”
未來,研究人員希望探索室內訓練效應如何在更複雜的強化學習環境中發生,或使用其他技術,如計算機視覺和自然語言處理。他們還希望建立設計用來利用室內訓練效應的訓練環境,這可能幫助 AI 代理人在不確定的環境中表現得更好。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!