標籤: 評分來評估大型語言模型競爭級編碼技能的