有效的人工智能模型開發在深度學習研究中至關重要,但尋找最佳模型架構仍然具有挑戰性且代價高昂。傳統的手動和自動化方法往往無法超越基本架構(如變壓器或混合架構)的設計可能性,而探索全面的搜索空間的高成本限制了模型的改進。手動優化需要大量的專業知識和資源,而自動化方法則常常受到狹窄搜索空間的限制,妨礙了在各任務中的實質性進展。為了解決這些挑戰,Liquid AI最新的研究提供了一個實用的解決方案。
為了解決這些挑戰,Liquid AI開發了STAR(量身定制架構的合成),這是一個旨在自動演化模型架構以提高效率和性能的框架。STAR重新構思了模型構建過程,通過基於線性輸入變化系統(LIVs)理論創建了一個新穎的架構搜索空間。與傳統方法在有限的已知模式集上進行迭代不同,STAR提供了一種新的方式來表示模型結構,使探索能夠通過他們所稱的“STAR基因組”在不同的層次上進行。
這些基因組作為架構設計的數字編碼,STAR利用演化優化原則進行演化。通過反覆編譯和評估這些基因組,STAR允許重組和突變,從而實現持續的精練。核心思想是將模型架構視為可以隨著世代演化的動態實體,優化質量、效率、大小和推理快取等指標,這些都是現代人工智能應用的關鍵組成部分。
技術洞察:STAR的架構與優勢
STAR的技術基礎在於將模型架構表示為層次化的數字序列—“基因組”—這些基因組定義了計算單元及其相互連接。該搜索空間受到LIV系統的啟發,這些系統概括了許多深度學習架構的常見組件,如卷積層、注意機制和循環單元。STAR基因組由幾個抽象層次組成,包括骨幹、運算符和特徵提取基因組,這些共同決定了用於模型的計算單元的結構和特性。


STAR通過一系列演化算法優化這些基因組。該過程涉及一系列操作:評估、重組和突變,這些操作隨著時間的推移精練架構的群體。群體中的每個架構都根據其在特定指標上的性能進行評估,表現最佳的架構會被重組和突變以形成新一代架構。
這種方法使STAR能夠生成多樣化的架構設計。通過將架構分解為可管理的組件並系統地優化它們,STAR能夠設計出在計算需求和質量方面都有效的模型。例如,STAR生成的架構在手動調整的模型(如變壓器和混合設計)上顯示出改進,特別是在評估大小、效率和推理快取要求等參數時。
STAR的影響是顯著的,特別是考慮到在平衡效率和質量的同時擴展AI模型的挑戰。Liquid AI的結果顯示,在同時優化質量和參數大小時,STAR演化的架構在下游基準測試中始終優於Transformer++和混合模型。具體而言,STAR在保持或改善質量(以困惑度測量)方面實現了13%的參數減少,並適用於各種指標和任務。
快取大小的減少是STAR能力的另一個重要特徵。在優化質量和推理快取大小時,發現STAR演化的模型的快取大小比變壓器架構小多達90%,同時在質量上達到或超過它們。這些改進表明,STAR利用演化算法合成架構設計的方法是可行且有效的,特別是在同時優化多個指標時。
此外,STAR識別重複架構主題的能力—在演化過程中出現的模式—為改善觀察到的設計原則提供了有價值的見解。這種分析能力可以作為研究人員了解為什麼某些架構表現更好的工具,最終推動未來的人工智能模型設計創新。

結論
STAR代表了我們設計人工智能架構方式的重要進展。通過利用演化原則和清晰的搜索空間,Liquid AI創建了一個工具,能夠自動生成針對特定需求優化的量身定制架構。這個框架對於解決高效且高質量模型的需求特別有價值,能夠應對現實世界人工智能應用的多樣化需求。隨著人工智能系統的複雜性不斷增長,STAR的方法提供了一條有前途的前進道路—結合自動化、適應性和洞察力,推動人工智能模型設計的邊界。
查看論文和詳細信息。所有對這項研究的榮譽都歸於該項目的研究人員。此外,不要忘記在Twitter上關注我們,並加入我們的Telegram頻道和LinkedIn小組。如果您喜歡我們的工作,您一定會喜歡我們的新聞通訊。不要忘記加入我們的60k+ ML SubReddit。
🎙️ 🚨 ‘大型語言模型漏洞評估:紅隊技術的比較分析’ 閱讀完整報告(推廣)