像人類一樣,大型語言模型(LLMs)通常擁有不同的技能和優勢,這是因為它們的架構和訓練方式有所不同。然而,它們在不同領域之間結合專業知識的能力較弱,這限制了它們的問題解決能力,與人類相比有所不足。像MetaMath、WizardMath和QwenMath這樣的專業模型在數學推理方面表現優異,但在需要常識或醫學知識的任務上常常表現不佳。即使在數學這樣的特定領域,模型的能力也會有細微的差異,例如,一個模型可能在代數方面表現出色,而另一個則精通幾何。這就需要有框架來識別和選擇最合適的專家模型來解決特定問題。
現有的方法如專家混合模型(Mixture-of-Experts, MoE)將計算分配到多個專業組件上,最近的重點是稀疏方法,這些方法僅在每個輸入中啟用最相關的專家。稀疏MoE(Sparse MoE, SMoE)方法在視覺、語言和多模態任務中提高了效率,但需要通過聯合訓練將模型結合在參數空間中。最近的框架如MoA(Mixture-of-Agents)試圖通過符號性地結合LLM的輸出來解決這個問題。此外,多代理推理方法也出現了替代方案,例如學生-教師技術,這種技術將推理能力從強者傳遞給弱者,而辯論框架則允許多個代理共同完善論點。
來自北卡羅來納大學教堂山分校(UNC Chapel Hill)的研究人員提出了SYMBOLIC-MOE,這是一種符號性、基於文本且無需梯度的專家混合框架,旨在實現預訓練LLM專家的自適應實例級混合。它從更細緻的角度出發,強調在數學或生物醫學推理等更廣泛領域內的專業技能。他們還引入了一種基於技能的招聘策略,根據每個特定推理任務的實際優勢動態選擇最相關的專家LLM。此外,SYMBOLIC-MOE的表現超過了強大的LLM如GPT4o-mini,以及多代理方法,平均提升幅度達到8.15%。
SYMBOLIC-MOE由三個階段組成:模型配置創建和聚合器選擇,隨後是專家招聘和最終答案生成,這些都在推理過程中進行。為了最大化吞吐量和效率,SYMBOLIC-MOE引入了一種創新的批處理策略,首先分析所有實例以確定需要哪些LLM。然後,系統根據所需的專家智能地將問題實例分組,讓每個活躍的專家模型在單個批次中接收所有相關實例,確保每個專家僅加載一次。這一解決方案使得在單個GPU上進行高效的批量推理成為可能,同時支持多達16個LLM的多樣化池,並且可以靈活地添加更多GPU以進行進一步的並行處理。
SYMBOLIC-MOE在各種基準測試中表現出色。它始終超越所有基準方法,超過單模型策略、單模型的多代理辯論,以及像MoA和ReConcile這樣的多模型多代理框架。它在最強的多代理基準(Self-MoA)上超過了8.15%的絕對平均提升,在MMLU-Pro上提升8.28%,在AIME上提升13.45%,在GPQA上提升4.92%,在MedMCQA上提升6.08%。SYMBOLIC-MOE使用四個7-8B參數的模型,達到了與70B參數的大型模型相當或更優的表現。它在AIME和GPQA上超過了Llama3.3 70B的表現,同時在MedMCQA上與其表現相當。效率測試顯示,它在單個GPU上的運行速度比MoA快44%,而且準確性更高。
總之,研究人員介紹了SYMBOLIC-MOE,這是一種可擴展的MoE框架,通過其符號輸出結合模型。這種方法識別給定問題所需的技能,並根據這些技能招聘代理以對給定輸入進行討論。SYMBOLIC-MOE的表現超過了標準推理時間擴展方法以及其他辯論框架和其他代理混合方法,實現了在各個領域的強大表現,而無需人類干預。它在異質任務上的平均表現實際上比高級專有模型如GPT4o-mini更強。然而,這種方法也有其限制:(a)它需要運行多個模型,這會增加推理成本;(b)它依賴從小型驗證集推斷的技能來設置代理配置。
查看論文和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。同時,隨時關注我們的Twitter,並別忘了加入我們的80k+ ML SubReddit。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!