當今最具挑戰性的機器學習應用所依賴的深度神經網絡模型已經變得如此龐大和複雜,以至於正在推動傳統電子計算硬體的極限。
光子硬體可以利用光進行機器學習計算,提供了一種更快且更節能的替代方案。然而,有些類型的神經網絡計算是光子設備無法執行的,這需要使用外部電子元件或其他技術,從而影響速度和效率。
基於十年的研究,麻省理工學院及其他機構的科學家們開發了一種新的光子晶片,克服了這些障礙。他們展示了一種完全整合的光子處理器,可以在晶片上光學地執行深度神經網絡的所有關鍵計算。
該光學設備能夠在不到半納秒的時間內完成機器學習分類任務的關鍵計算,並達到超過92%的準確率——這一性能與傳統硬體不相上下。
這款晶片由互聯模塊組成,形成光學神經網絡,並採用商業晶圓廠工藝製造,這可能使這項技術的擴展和與電子設備的集成成為可能。
從長遠來看,光子處理器可能會使計算需求高的應用(如激光雷達、天文學和粒子物理的科學研究,或高速電信)實現更快和更節能的深度學習。
“有很多情況下,模型的表現好壞不是唯一重要的,還有你能多快得到答案。現在我們有了一個可以在光學中以納秒時間尺度運行神經網絡的端到端系統,我們可以開始更高層次地考慮應用和算法,”麻省理工學院量子光學和人工智能小組的訪問科學家、2023年博士畢業生Saumil Bandyopadhyay說,他是這款新晶片論文的首位作者。
Bandyopadhyay的論文合著者包括Alexander Sludds、Nicholas Harris、Darius Bunandar、Stefan Krastanov(前RLE研究科學家,現為馬薩諸塞大學安姆赫斯特分校助理教授)、Ryan Hamerly(RLE訪問科學家和NTT Research高級科學家)、Matthew Streshinsky(前Nokia硅光子學負責人,現為Enosemi的聯合創始人兼首席執行官)、Michael Hochberg(Periplous, LLC總裁)以及Dirk Englund(電機工程與計算機科學系教授、量子光學與人工智能小組的首席研究員及RLE高級作者)。這項研究今天發表在《自然光子學》上。
用光進行機器學習
深度神經網絡由多層互聯的節點或神經元組成,這些節點處理輸入數據以生成輸出。一個關鍵的操作涉及使用線性代數來執行矩陣乘法,這會在數據從一層傳遞到另一層時轉換數據。
但除了這些線性操作之外,深度神經網絡還執行非線性操作,幫助模型學習更複雜的模式。非線性操作,如激活函數,使深度神經網絡能夠解決複雜的問題。
2017年,Englund的團隊與Marin Soljačić實驗室的研究人員一起,展示了一個光學神經網絡,該網絡可以在單個光子晶片上用光執行矩陣乘法。
但當時,該設備無法在晶片上執行非線性操作。光學數據必須轉換為電信號,然後發送到數字處理器以執行非線性操作。
“光學中的非線性是相當具有挑戰性的,因為光子之間的互動並不容易。這使得觸發光學非線性變得非常耗能,因此構建一個可以以可擴展的方式進行的系統變得挑戰重重,”Bandyopadhyay解釋道。
他們通過設計稱為非線性光學功能單元(NOFU)的設備克服了這一挑戰,這些設備結合了電子學和光學,在晶片上實現非線性操作。
研究人員在光子晶片上構建了一個光學深度神經網絡,使用三層執行線性和非線性操作的設備。
完全整合的網絡
在一開始,他們的系統將深度神經網絡的參數編碼為光。然後,一組可編程的分束器(在2017年的論文中展示)對這些輸入執行矩陣乘法。
數據然後傳遞到可編程的NOFU,這些NOFU通過將少量光引流到光二極管來實現非線性功能,光二極管將光信號轉換為電流。這一過程消除了對外部放大器的需求,並消耗非常少的能量。
“我們在整個過程中保持在光學域,直到最後我們想讀出答案。這使我們能夠實現超低延遲,”Bandyopadhyay說。
實現如此低的延遲使他們能夠高效地在晶片上訓練深度神經網絡,這一過程稱為原位訓練,通常在數字硬體中消耗大量能量。
“這對於那些進行光信號域內處理的系統特別有用,比如導航或電信系統,但也適用於那些希望實時學習的系統,”他說。
該光子系統在訓練測試中達到了超過96%的準確率,而在推斷過程中達到了超過92%的準確率,這與傳統硬體相當。此外,該晶片在不到半納秒的時間內執行關鍵計算。
“這項工作展示了計算——其本質是將輸入映射到輸出——可以編譯到新的線性和非線性物理架構上,這使得計算與所需努力之間的基本擴展法則變得不同,”Englund說。
整個電路是使用相同的基礎設施和晶圓廠工藝製造的,這些工藝生產CMOS計算機晶片。這可能使晶片能夠以大規模生產,使用可靠的技術,並在製造過程中引入非常少的誤差。
擴展他們的設備並將其與現實世界的電子設備(如攝像頭或電信系統)集成將是未來工作的主要重點,Bandyopadhyay說。此外,研究人員希望探討可以利用光學優勢的算法,以更快的速度和更好的能量效率訓練系統。
這項研究部分由美國國家科學基金會、美國空軍科學研究辦公室和NTT Research資助。