在1980年代
安德魯·巴托 (Andrew Barto) 和瑞奇·薩頓 (Rich Sutton) 被認為是對一個優雅但最終失敗的想法的狂熱追隨者——讓機器像人類和動物一樣,從經驗中學習。
數十年後
他們所開創的技術現在對現代人工智慧和像ChatGPT這樣的程式變得越來越重要,巴托和薩頓因此獲得了圖靈獎 (Turing Award),這是計算機科學領域的最高榮譽。
巴托和薩頓的貢獻
巴托是馬薩諸塞州大學阿默斯特分校 (University of Massachusetts Amherst) 的名譽教授,而薩頓則是阿爾伯塔大學 (University of Alberta) 的教授。他們開創了一種稱為強化學習 (reinforcement learning) 的技術,這種技術涉及通過實驗和正面或負面的反饋來引導計算機執行任務。
巴托的回憶
巴托微笑著回憶道:“當我開始這項工作時,這是非常不流行的。”他在馬薩諸塞州的家中通過Zoom進行訪談。他補充說:“這項工作能夠獲得一些影響力和關注,真是令人驚訝。”
強化學習的應用
強化學習最著名的應用之一是谷歌深度學習 (Google DeepMind) 在2016年開發的AlphaGo,這是一個能夠自學如何以專家級水平下圍棋的程式。這一展示引發了對這項技術的新興趣,並且它已被用於廣告、優化數據中心的能源使用、金融和晶片設計等領域。這種方法在機器人技術中也有悠久的歷史,能幫助機器通過反覆嘗試學習執行物理任務。
最近的發展
最近,強化學習對於指導大型語言模型 (LLMs) 的輸出和生成非常強大的聊天機器人程式至關重要。同樣的方法也被用來訓練人工智慧模型模仿人類推理,並建立更強大的人工智慧代理。
薩頓的觀點
然而,薩頓指出,用於指導LLMs的方法涉及人類提供目標,而不是算法僅僅通過自己的探索來學習。他表示,讓機器完全自主學習可能最終會更有成效。他說:“主要的區別在於,人工智慧是從人類學習還是從自己的經驗中學習。”
業界的讚譽
谷歌的高級副總裁傑夫·迪恩 (Jeff Dean) 在計算機協會 (Association for Computing Machinery, ACM) 發布的聲明中表示:“巴托和薩頓的工作是過去幾十年人工智慧進步的關鍵。他們開發的工具仍然是人工智慧繁榮的核心支柱,並帶來了重大進展。”
強化學習的歷史
強化學習在人工智慧中有著悠久而曲折的歷史。它出現在這個領域的曙光時期,當時艾倫·圖靈 (Alan Turing) 在他1950年的著名論文《計算機機械與智慧 (Computing Machinery and Intelligence)》中提出,機器可以通過經驗和反饋來學習,探討機器有朝一日可能像人類一樣思考的概念。人工智慧先驅亞瑟·塞繆爾 (Arthur Samuel) 在1955年使用強化學習建立了第一個機器學習程式之一,這是一個能夠下跳棋的系統。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!