與 o1 和 o3 等推理模型逐步給出答案不同,大多數大型語言模型如 GPT-4.5 會直接輸出它們想到的第一個回應。但 GPT-4.5 是更通用的模型。在 OpenAI 去年開發的 SimpleQA 測試中,這是一種涵蓋科學、技術、電視節目和電子遊戲等主題的常識測驗,GPT-4.5 的得分為 62.5%,而 GPT-4o 的得分為 38.6%,o3-mini 則只有 15%。
更重要的是,OpenAI 宣稱 GPT-4.5 的虛構回答(稱為幻覺)大幅減少。在同一測試中,GPT-4.5 的虛構回答率為 37.1%,而 GPT-4o 為 59.8%,o3-mini 則高達 80.3%。
不過,SimpleQA 只是其中一個基準測試。在其他測試中,包括 MMLU,這是一個更常用的比較大型語言模型的基準,GPT-4.5 的表現比 OpenAI 之前的模型稍微好一些。而在標準的科學和數學基準測試中,GPT-4.5 的得分則不如 o3-mini。
展現魅力
GPT-4.5 的特別魅力似乎在於它的對話技巧。OpenAI 的人類測試者表示,他們在日常查詢、專業查詢和創意任務(包括創作詩歌)中更喜歡 GPT-4.5 而不是 GPT-4o。(Ryder 說它在舊式網路 ASCII 藝術方面也很出色。)
例如,如果你告訴它你正在經歷一段艱難的時期,GPT-4.5 可能會先給你幾句同情的話,然後說:「想談談發生了什麼事,還是你只是需要分心?我隨時在這裡。」而 GPT-4o 在讀取社交暗示方面較差,可能會試圖解決問題,不論你是否請求,並給你一個鼓舞自己的要點列表。
然而,在多年位居榜首之後,OpenAI 面對著一個挑剔的觀眾。「專注於情感智慧和創造力對於像寫作教練和頭腦風暴夥伴這樣的小眾應用來說很酷,」Writer 的聯合創始人兼首席技術官 Waseem Alshikh 說,這是一家為企業客戶開發大型語言模型的初創公司。
「但 GPT-4.5 感覺就像是舊車上新漆的光鮮外表,」他說。「對模型投入更多的計算和數據可以讓它聽起來更流暢,但這並不是一個改變遊戲規則的創新。」
「考慮到能源成本以及大多數用戶在日常使用中不會注意到差異,這樣的投入不值得,」他說。「我寧願看到他們轉向提高效率或解決小眾問題,而不是不斷擴大同樣的配方。」
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!