今天,DeepSeek 是中國少數幾家不依賴百度、阿里巴巴或字節跳動等科技巨頭資金的領先人工智慧公司之一。
一群年輕天才渴望證明自己
根據梁的說法,當他組建 DeepSeek 的研究團隊時,他並不是在尋找有經驗的工程師來開發面向消費者的產品。相反,他專注於來自中國頂尖大學(如北京大學和清華大學)的博士生,這些學生渴望證明自己的能力。根據中國科技媒體 QBitAI 的報導,許多人已經在頂尖期刊上發表過論文,並在國際學術會議上獲獎,但卻缺乏行業經驗。
梁在 2023 年告訴 36Kr:「我們的核心技術職位大多由今年或過去一兩年畢業的人填補。」這種招聘策略幫助創造了一種合作的公司文化,讓人們可以自由使用大量計算資源來追求非傳統的研究項目。這與中國的傳統互聯網公司運作方式截然不同,後者的團隊經常為資源競爭。(最近的一個例子:字節跳動指控一名前實習生——一位享有盛譽的學術獎得主,竟然破壞同事的工作,以便為自己的團隊囤積更多計算資源。)
梁表示,學生可能更適合高投入、低利潤的研究。「大多數人在年輕時,可以完全投入到一個使命中,而不考慮實際利益。」他對潛在雇員的推銷是,DeepSeek 的成立是為了「解決世界上最難的問題」。
專家表示,這些年輕研究者幾乎完全在中國接受教育,這增強了他們的動力。「這一代年輕人也體現了一種愛國主義,特別是在他們面對美國的限制和關鍵硬體與軟體技術的瓶頸時。」張解釋道。「他們克服這些障礙的決心,不僅反映了個人的雄心,還表明了他們對提升中國作為全球創新領導者地位的更大承諾。」
危機中的創新
在 2022 年 10 月,美國政府開始制定出口管制,嚴格限制中國人工智慧公司獲取先進芯片,如英偉達的 H100。這對 DeepSeek 來說是一個問題。該公司最初擁有 10,000 顆 H100 的庫存,但為了與 OpenAI 和 Meta 等公司競爭,他們需要更多。「我們面臨的問題從來不是資金,而是對先進芯片的出口管制。」梁在 2024 年的第二次訪問中告訴 36Kr。
DeepSeek 必須想出更有效的方法來訓練其模型。「他們使用一系列工程技巧來優化模型架構——在芯片之間定制通信方案、減少字段大小以節省記憶體,以及創新地使用混合模型方法。」來自梅卡托研究所的軟體工程師轉政策分析師的 Wendy Chang 說。「這些方法中的許多並不是新想法,但成功地將它們結合起來以產生尖端模型是一項了不起的成就。」
DeepSeek 在多頭潛在注意力(MLA)和專家混合模型方面也取得了顯著進展,這兩種技術設計使 DeepSeek 的模型在訓練時需要更少的計算資源,從而更具成本效益。事實上,根據研究機構 Epoch AI 的報導,DeepSeek 最新的模型在訓練時所需的計算能力僅為 Meta 相似的 Llama 3.1 模型的十分之一。
DeepSeek 願意將這些創新與公眾分享,使其在全球人工智慧研究社群中贏得了相當大的好感。對於許多中國人工智慧公司來說,開發開源模型是追趕西方同行的唯一途徑,因為這樣可以吸引更多用戶和貢獻者,進而幫助模型成長。「他們現在已經證明,尖端模型可以用更少的資金來建造,雖然仍然需要很多資金,而目前的模型建造規範仍然有很多優化的空間。」Chang 說。「我們肯定會看到未來在這方面更多的嘗試。」
這一消息可能會對目前專注於創造計算資源瓶頸的美國出口管制帶來麻煩。「現有的對中國人工智慧計算能力的估算,以及他們可以用這些能力達成的目標,可能會被顛覆。」Chang 說。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!