Sora、Gemini 2.0、ChatGPT 語音模式中的影片……每週 AI 通訊 (2024年12月16日)
…… 蘋果智慧、微軟 Phi-4、Cohere Reranker 3.5,最後,大家最期待的:ChatGPT 的資料夾功能。
😎 網路上的新聞
OpenAI 發布了 Sora。OpenAI 推出了 Sora,這是一個將文字轉換為影片的 AI,作為其為期 12 天的「船運節」系列的一部分。透過每月 200 美元的 ChatGPT Pro 訂閱,使用者可以創建長達 20 秒的 1080p 影片。Sora 的功能包括影片重混和故事板,影片上會有水印。Google Gemini 2.0 Flash 上線,具備即時對話和影像分析功能。Google 發布了 Gemini 2.0 Flash,這是一個多語言和多模態的 AI 模型,能夠進行即時對話和影像分析。它針對開發者,支持代碼執行和搜索,並可以從 AI Studio 和 Vertex AI 測試。OpenAI 將影片功能帶入 ChatGPT 進階語音模式。OpenAI 的 ChatGPT 進階語音模式現在支持影片和螢幕共享功能,讓使用者可以透過手機相機進行視覺互動。這次更新之前僅支持音訊,現在展示了 ChatGPT 辨識物體和指導任務的能力。此功能對 ChatGPT Plus 和 Pro 使用者開放。蘋果公司推出蘋果智慧和 ChatGPT 與 Siri 的整合。蘋果公司的 iOS 18.2 更新增強了 iPhone、iPad 和 Mac 的蘋果智慧功能。使用者可以體驗 AI 生成的表情符號 Genmoji、從文字創建影像的 Image Playground,以及 ChatGPT 與 Siri 的整合。微軟發布了擁有 140 億參數的 Phi-4。微軟的 Phi-4 語言模型以僅 140 億參數超越了更大的模型,在數學方面表現優異,並在科學和技術問題上超越了 GPT-4。訓練過程中使用了高品質的合成數據和精細的方法來區分答案的質量。Phi-4 將很快在 HuggingFace 上線,並在 AMC 測試中達到 91.8%,領先所有模型,但在實際應用中仍顯示出一些限制。Cohere 發布了 Rerank 3.5。Cohere 的 Rerank 3.5 透過改進推理和多語言能力,提高了 AI 搜索的準確性,支持超過 100 種語言。這個模型通過理解複雜的查詢和重新排名結果,超越了傳統系統。金融、政府等行業的企業從中受益,提升了搜索的精確度和效率。OpenAI 推出了 Projects 功能來組織 ChatGPT 的互動。OpenAI 推出了 Projects 功能,幫助 Plus、Pro 和 Teams 訂閱者組織 ChatGPT 的互動。Projects 通過將相關的聊天、文件和自定義指令分組,提升了使用者體驗,為編劇或建設網站等任務提供了一個整潔的解決方案。OpenAI 擴大了 ChatGPT Canvas 的使用權限。OpenAI 擴大了 Canvas 的使用權限,讓所有 ChatGPT 使用者都能使用,並增強了可用性,提供 Python 代碼執行和錯誤檢測等功能。Canvas 整合進入 GPT-4o 的網頁和 Windows 應用,提供無縫的內容編輯。使用者可以將 Canvas 添加到自定義的 GPTs 中。
📚 網路上的指南
從零開始建立一個 AI 驅動的搜索引擎。這篇部落格文章描述了一個利用 AI 進行私人網頁瀏覽的開源搜索引擎。它處理文字和影像輸入,進行網頁搜索,提取關鍵字,並通過 Gradio 介面提供回應。它結合了第三方服務,如 Postgres 和 Qdrant,以提高搜索和回應生成的效率。LeMaterial:一個開源倡議,加速材料的發現和研究。LeMaterial 由 Entalpic 和 Hugging Face 發起,旨在標準化材料數據集,幫助材料科學的研究和發現。該項目的初始版本 LeMat-Bulk 整合了 Materials Project 和 OQMD 等主要數據集,提供 670 萬條目。
🔬 有趣的論文和資料庫
Phi-4 技術報告。Phi-4 是一個擁有 140 億參數的語言模型,通過在訓練過程中策略性地整合合成數據,優秀於 STEM 相關的問答能力。儘管保留了 phi-3 的架構,但由於數據質量的提升、訓練課程的改進和先進的後訓練創新,使其超越了前任,尤其在推理相關的基準測試中表現出色。訓練大型語言模型以在連續潛在空間中推理。研究人員提出了 Coconut,這是一種在連續潛在空間中運作的新型推理範式。Coconut 通過利用最後的隱藏狀態作為連續思考,增強了推理能力,使其能夠進行像廣度優先搜索這樣的高級推理模式。在邏輯任務中,它超越了傳統的思維鏈方法,顯示出潛在推理的潛力。MarkItDown:一個將文件轉換為 Markdown 的工具。微軟的 MarkItDown 庫有效地將 PDF、PowerPoint、Word 等文件轉換為 Markdown,幫助索引和文本分析。使用者可以通過 pip 安裝並使用其簡單的 API。MarkItDown 還支持大型語言模型的影像描述,使用參數如 mlm_client 和 mlm_model。FlashAttention on a Napkin:一種圖示化的方法來優化深度學習的 IO 意識。作者提出了一種圖示化的方法來優化深度學習算法,具有 IO 意識,達到最高六倍的性能提升,如 FlashAttention。通過有效管理數據傳輸和利用 GPU 特性,他們的方法為 Ampere 和 Hopper 架構生成了偽代碼,通過減少從傳輸帶寬中消耗的 GPU 能源成本,提升了能源效率和性能,該成本目前佔 46%。GenEx:生成可探索的世界。GenEx 介紹了一個系統,使用生成想像從最少的輸入(如單一 RGB 影像)來探索 3D 世界。它生成高品質的 360 度環境,使 AI 代理能夠執行複雜的任務並進行預測。通過模擬結果和精煉信念,GenEx 在想像空間中推進了具身 AI,並具有現實世界的應用。Apollo:探索大型多模態模型中的影片理解。這篇文章介紹了 Apollo,一系列最先進的大型多模態模型(LMM),旨在增強影片理解。研究人員確定了 fps 取樣和視覺編碼器等因素,這些因素能改善影片表現。Apollo 模型能有效處理長達一小時的影片,其中 Apollo-3B 超越了許多現有模型。Apollo-7B 創造了新的標準,在 MLVU 和 Video-MME 等基準測試中表現優異。
✨ 額外內容
這裡還有其他你可能會喜歡的文章:OpenAI 將發布針對推理模型的微調——每週 AI 通訊 (2024年12月9日) 兩分鐘的生成 AI——大型語言模型何時會耗盡訓練數據?想在 LinkedIn 閱讀 AI、機器學習、新聞、論文等的解釋嗎?請關注 Generative AI Central 頁面!想在你的 Medium 動態中看到這份通訊和更多 AI 內容嗎?請關注我和/或為這篇文章點讚!想通過電子郵件接收這份通訊嗎?這是免費的,你可以訂閱以通過電子郵件接收我的文章。我只會發送這份通訊。
謝謝你的閱讀!
Sora、Gemini 2.0、ChatGPT 語音模式中的影片……每週 AI 通訊 (2024年12月16日) 最初發表於 Generative AI 的 Medium,這裡人們正在繼續討論並回應這個故事。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!