Qwen 研究人員推出 CodeElo：一個旨在使用人類可比的 Elo 評分來評估大型語言模型競爭級編碼技能的 AI 基準

大型語言模型（LLMs）在人工智慧（AI）應用方面取得了重大進展，包括代碼生成。然而，評估它們的真正能力並不簡單。現有的基準測試，如 LiveCodeBench 和 USACO，存在一些限制。這些基準缺乏強健的私有測試案例，不支持專門的評判系統，並且經常在不一致的執行環境中運作。這些問題使得公平比較 LLM 與人類程式設計師的表現變得困難。因此，建立一個與現實編程挑戰相符的標準化框架，對於可靠地評估 LLM 的推理能力至關重要。

為了解決這些挑戰，Qwen 研究團隊推出了 CodeElo，這是一個旨在評估 LLM 競賽級編碼技能的基準，使用與人類可比的 Elo 評分。CodeElo 的問題來自於 CodeForces，這是一個以其嚴格的編程比賽而聞名的平台。通過直接將解決方案提交到 CodeForces 平台，CodeElo 確保了準確的評估。它解決了假陽性問題，並支持需要特殊判斷的問題。此外，這個基準的 Elo 評分系統反映了人類的表現排名，使 LLM 與人類參賽者之間的比較變得有意義。CodeElo 提供了一種新的方法來衡量 LLM 在競賽編碼中的表現。

技術細節與優勢

CodeElo 建立在三個關鍵要素上：全面的問題選擇、強健的評估方法和標準化的評分計算。問題根據比賽分組、難度級別和算法標籤進行分類，以提供全面的評估。提交的解決方案在 CodeForces 平台上進行測試，確保使用其特殊評估機制進行準確判斷。這種方法消除了隱藏測試案例的需要，並提供可靠的反饋。Elo 評分系統評估正確性，考慮問題的難度，並對錯誤進行懲罰。通過激勵高質量的解決方案，CodeElo 提供了一個細緻且有效的工具來評估編碼模型。

結果與見解

對 30 個開源和三個專有 LLM 進行 CodeElo 測試，獲得了寶貴的見解。OpenAI 的 o1-mini 模型表現最佳，達到 1578 的 Elo 評分，超過了 90% 的人類參賽者。在開源模型中，QwQ-32B-Preview 是表現最好的，得分為 1261。然而，許多模型在較簡單的問題上表現不佳，經常排在人類參賽者的底部 20%。分析顯示，模型在數學和實現類別中表現優異，但在動態編程和樹算法方面則面臨更多挑戰。此外，模型在使用 C++ 編碼時表現更好，這也是競賽程式設計師的共同偏好。這些結果突顯了 LLM 需要改進的領域。

結論

CodeElo 是評估 LLM 編碼能力的重要一步。通過解決早期基準的限制，它提供了一個可靠且標準化的框架來評估競賽級的代碼生成。CodeElo 的見解不僅揭示了當前模型的優勢和劣勢，還指導未來在 AI 驅動的代碼生成方面的發展。隨著 AI 的不斷進步，像 CodeElo 這樣的基準將在幫助 LLM 有效應對現實編程挑戰中發揮重要作用。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！