就像自然界有許多大家都能理解的規律,例如「上升的東西必然會下降」或「每個行動都有相等且相反的反應」,人工智慧(AI)的領域也曾經是由一個單一的想法所定義:更多的計算能力、更多的訓練數據和更多的參數會讓AI模型變得更好。
然而,隨著時間的推移,AI需要三個不同的法則來描述如何以不同的方式使用計算資源會影響模型的表現。這三個AI擴展法則——預訓練擴展、後訓練擴展和測試時擴展(也稱為長期思考)——反映了這個領域隨著技術的發展而演變,能夠在越來越複雜的AI應用中使用額外的計算資源。
最近,測試時擴展的興起——在推理時使用更多的計算資源來提高準確性——使得AI推理模型成為一種新的大型語言模型(LLMs),這些模型可以進行多次推理,來解決複雜的問題,同時描述解決任務所需的步驟。測試時擴展需要大量的計算資源來支持AI推理,這將進一步推動對加速計算的需求。
什麼是預訓練擴展?
預訓練擴展是AI發展的原始法則。它顯示出,通過增加訓練數據集的大小、模型參數的數量和計算資源,開發者可以預期模型的智能和準確性會有可預測的提升。
這三個元素——數據、模型大小和計算——是相互關聯的。根據這項研究論文中概述的預訓練擴展法則,當更大的模型接收更多數據時,模型的整體表現會改善。為了實現這一點,開發者必須增加計算能力,這就需要強大的加速計算資源來運行這些更大的訓練工作負載。
這一預訓練擴展的原則導致了大型模型的出現,這些模型實現了突破性的能力。它還促進了模型架構的重大創新,包括十億和萬億參數的變壓器模型、專家混合模型和新的分佈式訓練技術——這些都需要大量的計算資源。
而且,預訓練擴展法則的相關性仍然存在——隨著人類不斷產生越來越多的多模態數據,這些文本、圖像、音頻、視頻和傳感器信息的寶庫將用於訓練未來強大的AI模型。
什麼是後訓練擴展?
預訓練大型基礎模型並不適合所有人——這需要大量的投資、熟練的專家和數據集。但一旦一個組織預訓練並發布了一個模型,他們就降低了AI採用的門檻,讓其他人可以使用他們的預訓練模型作為基礎,來適應自己的應用。
這一後訓練過程推動了企業和更廣泛的開發者社區對加速計算的累積需求。流行的開源模型可以有數百或數千個衍生模型,這些模型在多個領域進行訓練。
為各種用例開發這個衍生模型的生態系統可能需要約30倍的計算能力,這比預訓練原始基礎模型所需的計算要多。
為各種用例開發這個衍生模型的生態系統可能需要約30倍的計算能力,比預訓練原始基礎模型所需的計算要多。
後訓練技術可以進一步提高模型對組織所需用例的特異性和相關性。預訓練就像是把AI模型送到學校學習基礎技能,而後訓練則是增強模型的技能,使其適用於預期的工作。例如,一個大型語言模型(LLM)可以進行後訓練,以處理情感分析或翻譯等任務,或者理解特定領域的術語,如醫療或法律。
後訓練擴展法則認為,預訓練模型的表現可以進一步改善——在計算效率、準確性或領域特異性方面——使用包括微調、剪枝、量化、蒸餾、強化學習和合成數據增強等技術。
微調使用額外的訓練數據來為特定領域和應用量身定制AI模型。這可以使用組織的內部數據集,或使用樣本模型的輸入和輸出對。
蒸餾需要一對AI模型:一個大型複雜的教師模型和一個輕量級的學生模型。在最常見的蒸餾技術中,稱為離線蒸餾,學生模型學習模仿預訓練教師模型的輸出。
強化學習(RL)是一種機器學習技術,使用獎勵模型來訓練代理,使其做出與特定用例一致的決策。代理的目標是做出最大化累積獎勵的決策,隨著它與環境互動——例如,一個聊天機器人LLM會因用戶的「讚」反應而受到正向強化。這種技術稱為來自人類反饋的強化學習(RLHF)。另一種較新的技術,來自AI反饋的強化學習(RLAIF),則使用AI模型的反饋來指導學習過程,簡化後訓練的工作。
最佳選擇抽樣從語言模型生成多個輸出,然後根據獎勵模型選擇獎勵分數最高的輸出。它通常用於改善AI的輸出,而不修改模型參數,提供了一種替代微調的強化學習方法。
搜索方法探索多種潛在的決策路徑,然後選擇最終輸出。這種後訓練技術可以迭代性地改善模型的回應。
為了支持後訓練,開發者可以使用合成數據來增強或補充他們的微調數據集。用AI生成的數據來補充現實世界的數據集,可以幫助模型提高處理在原始訓練數據中未充分代表或缺失的邊緣案例的能力。

什麼是測試時擴展?
大型語言模型(LLMs)對輸入提示生成快速回應。雖然這個過程非常適合快速回答簡單問題,但當用戶提出複雜查詢時,效果可能不佳。回答複雜問題——這對於自主AI工作負載至關重要——需要LLM在給出答案之前進行推理。
這就像大多數人思考的方式——當被問到「二加二等於多少」時,他們會立刻給出答案,而不需要詳細解釋加法或整數的基本原理。但如果被要求立即制定一個能讓公司的利潤增長10%的商業計劃,人們可能會考慮各種選擇,並給出多步驟的答案。
測試時擴展,也稱為長期思考,發生在推理過程中。與傳統AI模型快速生成一次性答案的方式不同,使用這種技術的模型在推理時分配額外的計算努力,允許它們在得出最佳答案之前考慮多個潛在回應。
在為開發者生成複雜的自定義代碼等任務中,這一AI推理過程可能需要幾分鐘甚至幾個小時——對於挑戰性的查詢,這可能需要超過100倍的計算能力,而傳統LLM在第一次嘗試時不太可能對複雜問題給出正確答案。
這一AI推理過程可能需要幾分鐘,甚至幾個小時——對於挑戰性的查詢,這可能需要超過100倍的計算能力,而傳統LLM在第一次嘗試時不太可能對複雜問題給出正確答案。
這一測試時計算能力使得AI模型能夠探索問題的不同解決方案,並將複雜的請求分解為多個步驟——在許多情況下,展示它們的推理過程。研究發現,當AI模型面對需要多個推理和計劃步驟的開放式提示時,測試時擴展會產生更高質量的回應。
測試時計算方法有許多方法,包括:
思維鏈提示:將複雜問題分解為一系列更簡單的步驟。
多數投票抽樣:對同一提示生成多個回應,然後選擇最常出現的答案作為最終輸出。
搜索:探索和評估在樹狀結構中存在的多條路徑。
後訓練方法如最佳選擇抽樣也可以在推理過程中用於長期思考,以優化回應,使其與人類偏好或其他目標保持一致。

測試時擴展如何促進AI推理
測試時計算的興起解鎖了AI提供合理、有幫助和更準確的回應的能力,特別是對於複雜的開放式用戶查詢。這些能力對於自主AI和物理AI應用所需的詳細多步推理任務至關重要。在各行各業,它們可以通過提供高效能的助手來提高效率和生產力,加速用戶的工作。
在醫療保健領域,模型可以利用測試時擴展來分析大量數據,推斷疾病的進展,並預測基於藥物分子化學結構的新療法可能帶來的潛在併發症。或者,它可以在臨床試驗數據庫中搜尋,建議與個人疾病特徵相匹配的選項,並分享其推理過程,說明不同研究的利弊。
在零售和供應鏈物流中,長期思考可以幫助解決應對近期操作挑戰和長期戰略目標所需的複雜決策。推理技術可以幫助企業降低風險,通過同時預測和評估多種情境來解決可擴展性挑戰——這可以實現更準確的需求預測、精簡的供應鏈旅行路徑,以及符合組織可持續發展計劃的採購決策。
對於全球企業來說,這一技術可以用於起草詳細的商業計劃、生成複雜的代碼以調試軟件,或優化配送卡車、倉庫機器人和無人駕駛出租車的旅行路徑。
AI推理模型正在迅速發展。OpenAI的o1-mini和o3-mini、DeepSeek R1,以及Google DeepMind的Gemini 2.0 Flash Thinking最近幾週都已推出,預計還會有更多新模型跟隨其後。
像這些模型需要相當多的計算能力來進行推理並生成對複雜問題的正確答案——這意味著企業需要擴大其加速計算資源,以提供下一代AI推理工具,支持複雜的問題解決、編碼和多步計劃。
了解NVIDIA AI在加速推理方面的好處。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!