OpenAI 剛剛發布了 GPT-4.5，並表示這是其最大的、最好的聊天模型

與 o1 和 o3 等推理模型逐步給出答案不同，大多數大型語言模型如 GPT-4.5 會直接輸出它們想到的第一個回應。但 GPT-4.5 是更通用的模型。在 OpenAI 去年開發的 SimpleQA 測試中，這是一種涵蓋科學、技術、電視節目和電子遊戲等主題的常識測驗，GPT-4.5 的得分為 62.5%，而 GPT-4o 的得分為 38.6%，o3-mini 則只有 15%。

更重要的是，OpenAI 宣稱 GPT-4.5 的虛構回答（稱為幻覺）大幅減少。在同一測試中，GPT-4.5 的虛構回答率為 37.1%，而 GPT-4o 為 59.8%，o3-mini 則高達 80.3%。

不過，SimpleQA 只是其中一個基準測試。在其他測試中，包括 MMLU，這是一個更常用的比較大型語言模型的基準，GPT-4.5 的表現比 OpenAI 之前的模型稍微好一些。而在標準的科學和數學基準測試中，GPT-4.5 的得分則不如 o3-mini。

展現魅力

GPT-4.5 的特別魅力似乎在於它的對話技巧。OpenAI 的人類測試者表示，他們在日常查詢、專業查詢和創意任務（包括創作詩歌）中更喜歡 GPT-4.5 而不是 GPT-4o。（Ryder 說它在舊式網路 ASCII 藝術方面也很出色。）

例如，如果你告訴它你正在經歷一段艱難的時期，GPT-4.5 可能會先給你幾句同情的話，然後說：「想談談發生了什麼事，還是你只是需要分心？我隨時在這裡。」而 GPT-4o 在讀取社交暗示方面較差，可能會試圖解決問題，不論你是否請求，並給你一個鼓舞自己的要點列表。

然而，在多年位居榜首之後，OpenAI 面對著一個挑剔的觀眾。「專注於情感智慧和創造力對於像寫作教練和頭腦風暴夥伴這樣的小眾應用來說很酷，」Writer 的聯合創始人兼首席技術官 Waseem Alshikh 說，這是一家為企業客戶開發大型語言模型的初創公司。

「但 GPT-4.5 感覺就像是舊車上新漆的光鮮外表，」他說。「對模型投入更多的計算和數據可以讓它聽起來更流暢，但這並不是一個改變遊戲規則的創新。」

「考慮到能源成本以及大多數用戶在日常使用中不會注意到差異，這樣的投入不值得，」他說。「我寧願看到他們轉向提高效率或解決小眾問題，而不是不斷擴大同樣的配方。」

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

OpenAI 剛剛發布了 GPT-4.5，並表示這是其最大的、最好的聊天模型

OpenAI 推出 GPT-4.5 供 ChatGPT 使用——這是巨大的且計算密集型的

微軟 AI 發布 Phi-4-multimodal 和 Phi-4-mini：微軟小型語言模型 (SLMs) Phi 家族的最新模型

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2027 年 AI 預測人類水平 AI 的全新里程碑

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 技術對人類智能的影響我們在失去什麼？

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

微軟 AI 發布 Phi-4-multimodal 和 Phi-4-mini：微軟小型語言模型 (SLMs) Phi 家族的最新模型

一個人工智慧伴侶網站正在與未成年名人機器人進行性暗示的對話

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

OpenAI 剛剛發布了 GPT-4.5，並表示這是其最大的、最好的聊天模型

展現魅力

OpenAI 推出 GPT-4.5 供 ChatGPT 使用——這是巨大的且計算密集型的

微軟 AI 發布 Phi-4-multimodal 和 Phi-4-mini：微軟小型語言模型 (SLMs) Phi 家族的最新模型

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆