從規模到密度：評估大型語言模型的新 AI 框架

大型語言模型（LLMs）在人工智慧領域取得了重要進展，隨著其參數和訓練數據的增長，性能在各種任務上表現優異。像是 GPT-3、PaLM 和 Llama-3.1 等模型在許多應用中都表現良好，擁有數十億的參數。然而，當這些模型在低功耗平台上運行時，擴展 LLMs 會面臨嚴重的訓練和推理查詢困難。雖然這種擴展仍屬於實驗性和罕見，但隨著時間的推移，這一過程證明了其有效性，然而隨著進展，這種方法變得非常不可持續。因此，有必要使 LLMs 能夠在計算能力較低的設備上運行，以解決更基本的推理問題並生成更多的標記。

目前優化大型語言模型的方法包括擴展、剪枝、蒸餾和量化。擴展通過增加參數來提升性能，但需要更多的資源。剪枝則是移除不太重要的模型組件來減少模型大小，但通常會犧牲性能。蒸餾則是訓練較小的模型來模仿較大的模型，但通常會導致密度降低。量化則是降低數字精度以提高效率，但可能會影響結果。這些方法在效率和性能之間的平衡不佳，因此開始轉向優化「密度」作為開發大型語言模型的更可持續指標。

為了解決這個問題，清華大學和 ModelBest Inc. 的研究人員提出了「能力密度」的概念，作為評估不同規模 LLMs 質量的新指標，並描述其在有效性和效率方面的趨勢。大型語言模型（LLMs）的密度是有效參數大小與實際參數大小的比率。有效參數大小代表參考模型為了匹配給定模型的性能所需的參數數量。這是通過兩個步驟使用擴展法則來估算的：（1）擬合參數大小與語言模型損失之間的函數，（2）使用 sigmoid 函數預測下游任務性能。擬合損失和性能後計算有效參數大小。模型密度則是有效參數大小與實際大小的比率，密度越高，表示每個參數的性能越好。這是一個非常有用的概念，主要用於在資源有限的設備上優化模型。

研究人員分析了 29 個開源預訓練模型，並在不同數據集上評估大型語言模型（LLMs）的性能，包括 MMLU、BBH、MATH、HumanEval 和 MBPP，使用少量樣本的設置，如 5-shot、3-shot 和 0-shot，並利用開源工具進行基準測試。這些模型的訓練參數大小、標記長度和數據規模各不相同，並應用了思維鏈提示和不同的學習率調度技術。通過在不同的標記大小上訓練模型，獲得了性能擴展曲線，像是 Llama、Falcon、MPT、Phi、Mistral 和 MiniCPM 等模型在各種配置中進行了測試。隨著時間的推移，這些模型的密度顯著增加，較新的模型如 MiniCPM-3-4B 的密度超過了舊模型。線性回歸模型顯示 LLM 密度大約每 95 天翻一番。這意味著具備較低能力和成本的設計將很快能夠與更大、更複雜的模型競爭，技術進步將為更高效的設計鋪平道路。

總結來說，所提出的方法強調了 LLMs 中能力密度的指數增長，顯示出快速的發展和效率提升。在一些廣泛使用的 LLM 基準測試中的評估結果顯示，LLMs 的密度每三個月翻一番。研究人員還提出，將推理 FLOPs 作為評估密度的指標，以考慮更深層的推理。這種方法可以用於未來的研究，並可能成為 LLMs 領域的一個轉折點！

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！