DeepSeek的新模型開發成本仍不明朗
DeepSeek的新模型開發成本仍然未知,因為一篇研究報告中的數字可能無法完整反映其成本。Thomvest Ventures的總經理Umesh Padval表示:「我不相信這是600萬美元,但即使是6000萬美元,這也會改變遊戲規則。」他指出,這將對專注於消費者人工智慧的公司盈利能力造成壓力。
客戶對DeepSeek模型的興趣
在DeepSeek公布其最新模型的細節後,Databricks的Ghodsi表示,客戶開始詢問是否可以使用DeepSeek的技術來降低他們組織的成本。他補充說,DeepSeek的工程師使用的一種名為「蒸餾」的方法,利用一個大型語言模型的輸出來訓練另一個模型,這種方法相對便宜且簡單。
對中國模型的擔憂
Padval表示,像DeepSeek這樣的模型最終將使希望在人工智慧上花費更少的公司受益,但他也提到,許多公司可能對依賴中國模型處理敏感任務感到猶豫。目前,至少有一家知名的人工智慧公司Perplexity已公開宣布使用DeepSeek的R1模型,但它表示該模型是「完全獨立於中國」的。
Replit的CEO對DeepSeek模型的看法
提供人工智慧編碼工具的初創公司Replit的CEO Amjad Massad告訴WIRED,他認為DeepSeek的最新模型非常出色。雖然他認為Anthropic的Sonnet模型在許多計算工程任務中表現更佳,但他發現R1在將文本命令轉換為可在計算機上執行的代碼方面特別出色。他補充說:「我們正在探索特別用於代理推理的使用。」
DeepSeek的最新模型能力
DeepSeek最新的兩個產品——DeepSeek R1和DeepSeek R1-Zero——具備與OpenAI和Google最先進系統相同的模擬推理能力。它們通過將問題拆分為組成部分來更有效地解決問題,這一過程需要大量額外的訓練,以確保人工智慧能可靠地得出正確答案。
DeepSeek的研究方法
DeepSeek研究人員上週發表的一篇論文概述了該公司用於創建R1模型的方法,並聲稱在某些基準測試中,其表現與OpenAI的開創性推理模型o1相當。DeepSeek使用的策略包括一種更自動化的方法來學習如何正確解決問題,以及將技能從大型模型轉移到小型模型的策略。
關於DeepSeek硬體的猜測
關於DeepSeek可能使用的硬體是目前最熱門的話題之一。這個問題特別值得注意,因為美國政府在過去幾年中推出了一系列出口管制和其他貿易限制,旨在限制中國獲取和製造建造先進人工智慧所需的尖端晶片的能力。
DeepSeek的晶片使用情況
在2024年8月的一篇研究報告中,DeepSeek表示它可以使用一組10,000個Nvidia A100晶片,而這些晶片在2022年10月的美國限制下被列入管制。在同年6月的另一篇報告中,DeepSeek表示它早期創建的模型DeepSeek-V2是使用Nvidia H800計算晶片集群開發的,這是一種為遵守美國出口管制而開發的較低性能元件。
DeepSeek的晶片估算
一位不願透露姓名的人工智慧公司來源估計,DeepSeek可能使用了大約50,000個Nvidia晶片來建立其技術。
Nvidia對DeepSeek的回應
Nvidia拒絕直接評論DeepSeek可能依賴的晶片。Nvidia的一位發言人表示:「DeepSeek是一項卓越的人工智慧進展」,並補充說,這家初創公司的推理方法「需要大量的Nvidia GPU和高性能網絡」。
開放式人工智慧的發展趨勢
無論DeepSeek的模型是如何構建的,它們似乎顯示出一種更開放的人工智慧開發方式正在獲得動力。在12月,人工智慧模型平台HuggingFace的CEO Clem Delangue預測,由於開源模型的創新速度,中國公司將在人工智慧領域領先。他說:「這比我想的還要快。」
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!