近年來,人工智慧的演變催生了越來越複雜的大型語言模型(LLMs)。然而,訓練這些模型仍然是一個複雜的挑戰,因為它們需要巨大的計算資源。傳統上,這類模型的訓練只能在具備高帶寬互聯的集中環境中進行,通常是在由幾家科技巨頭控制的大型數據中心內。這種集中模式限制了可及性,因為它需要只有少數組織能夠承擔的重大資源。這些限制引發了人們對於高級人工智慧技術公平訪問及其潛在壟斷的擔憂。為了克服這些障礙,研究人員已開始探索合作的去中心化訓練方法。挑戰在於克服低節點間帶寬和不可預測的節點可用性等問題,這使得去中心化訓練比集中訓練更為複雜。
INTELLECT-1的發布
PRIME Intellect發布了INTELLECT-1(Instruct + Base),這是第一個在全球範圍內協作訓練的100億參數語言模型。該模型展示了使用去中心化、社區驅動資源來訓練先進LLMs的可行性。PRIME Intellect利用其PRIME框架,專門設計用於克服去中心化訓練的挑戰,包括網絡不穩定性和計算節點的動態增減。該框架在三大洲使用多達112個H100 GPU,在最佳條件下實現了高達96%的計算利用率,證明去中心化訓練可以與傳統設置的性能水平相媲美。這種方法擴大了對高性能AI模型的訪問,並促進了一個合作的研究環境,使全球貢獻者能夠參與AI開發。
技術細節
根據官方發布,INTELLECT-1是使用各種高質量數據集開發的,包括公開可用數據和由PRIME Intellect及其合作夥伴策劃的專有數據集。該模型在1萬億個標記上進行訓練,確保其對各個領域有廣泛的理解。訓練過程涉及14個同時運行的節點,分佈於三大洲,計算贊助商根據需要動態加入和離開。這種動態方法提供了顯著的靈活性,這對於現實世界的部署場景至關重要。PRIME Intellect還通過如實時檢查點和容錯通信等創新來確保訓練穩定性,這些都是由PRIME框架所支持的。
從技術上講,INTELLECT-1的訓練得以實現,得益於PRIME框架中的創新,該框架解決了地理分佈節點的限制。PRIME具有ElasticDeviceMesh,這是一種管理互聯網範圍內通信和節點之間本地、容錯數據共享的抽象。實施了結合完全分片數據並行(FSDP)技術以提高節點內效率和分佈式低通信(DiLoCo)算法以減少節點間通信的混合訓練方法。為了最小化帶寬需求,PRIME框架包括一種8位量化策略,用於梯度傳輸,與傳統數據並行訓練相比,通信負載減少了多達400倍。容錯通過動態節點管理來控制,允許新節點無縫加入,並以最小的干擾移除失敗的節點。這些創新促進了有效的去中心化模型訓練,同時保持高計算效率。
基準測試結果及其影響
INTELLECT-1的發布標誌著在使LLM訓練可及性方面向前邁出了一大步。訓練過程中的結果顯示,該模型在集中環境中訓練的同類模型中具有競爭力。例如,INTELLECT-1在MMLU基準測試中達到了37.5%的準確率,在HellaSwag中達到了72.26%。此外,INTELLECT-1在特定基準測試中超過了幾個其他開源模型,包括在WinoGrande挑戰中的65.82%。儘管這些數字稍微落後於一些最先進的集中模型,但考慮到去中心化訓練的挑戰,這些結果是值得注意的。更重要的是,這一實驗為大規模協作樹立了先例,為社區主導的AI項目的進一步發展鋪平了道路。全球30個獨立計算貢獻者的網絡不僅確保了項目的成功,還突顯了這類努力的可擴展性。隨著去中心化模型規模的增長以及通信策略的改善,集中與去中心化訓練之間的差距可能會繼續縮小。
結論
INTELLECT-1的發布標誌著在追求更可及的AI研究過程中的一個里程碑。通過利用去中心化資源訓練一個100億參數的語言模型,PRIME Intellect及其合作者展示了先進的AI開發不必限於少數精英公司。通過分佈式訓練框架的創新和全球協作,INTELLECT-1為開放和包容的AI研究設定了新的標準。PRIME框架,以及公開可用的INTELLECT-1模型和訓練數據,希望能激勵更多社區驅動的項目,幫助提升AI領域的公平性,並為更多樣化的貢獻打開大門。這是使人工智慧成為每個人可及和包容性資源的重要一步。
查看Hugging Face上的論文、詳細信息和模型(Instruct和Base)。該項目的所有研究均歸功於該研究團隊。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你會喜歡我們的電子報。別忘了加入我們的59k+ ML SubReddit。
🎙️ 🚨 ‘大型語言模型脆弱性評估:紅隊技術的比較分析’ 閱讀完整報告(推廣)