谷歌 (Google) 的執行長皮查伊 (Sundar Pichai) 宣布推出 Gemini 2.0,這是一個代表谷歌在人工智慧 (AI) 領域新一步的模型。
在推出 Gemini 1.0 一年後,這次重大升級加入了更強大的多模態能力、代理功能,以及創新的使用者工具,旨在推動 AI 驅動技術的邊界。
邁向變革性的 AI
皮查伊回顧了谷歌 26 年來的使命,旨在組織和使世界的信息更易於獲取,他表示:「如果 Gemini 1.0 是關於組織和理解信息,那麼 Gemini 2.0 則是讓這些信息變得更加有用。」
Gemini 1.0 於 2022 年 12 月推出,是谷歌首個原生多模態 AI 模型。這個版本在理解和處理文本、視頻、圖片、音頻和代碼方面表現出色。其增強版 1.5 版本受到開發者的廣泛歡迎,因為它能夠理解長上下文,支持像 NotebookLM 這樣以生產力為重點的應用。
現在,隨著 Gemini 2.0 的推出,谷歌希望加快 AI 作為通用助手的角色,能夠生成原生圖像和音頻,更好地進行推理和計劃,並具備現實世界的決策能力。皮查伊表示,這一發展代表著「代理時代」的曙光。
「我們一直在投資開發更具代理性的模型,這意味著它們能夠更好地理解你周圍的世界,提前思考多個步驟,並在你的監督下為你採取行動。」皮查伊解釋道。
Gemini 2.0:核心特徵和可用性
今天公告的核心是 Gemini 2.0 Flash 的實驗性發布,這是 Gemini 第二代的旗艦模型。它在前代模型的基礎上,提供更快的響應時間和更高的性能。
Gemini 2.0 Flash 支持多模態的輸入和輸出,包括生成原生圖像與文本結合的能力,並能產生可調整的多語言文本轉語音音頻。此外,使用者還可以受益於原生工具整合,例如谷歌搜尋 (Google Search) 和第三方用戶定義的功能。
開發者和企業將通過谷歌 AI Studio 和 Vertex AI 的 Gemini API 獲得 Gemini 2.0 Flash 的訪問權限,而更大模型的發布計劃在 2024 年 1 月進行。
為了全球可及性,Gemini 應用程式現在提供了針對聊天優化的 2.0 Flash 實驗模型。早期使用者可以在桌面和移動設備上體驗這個更新的助手,移動應用程式的推出也即將到來。
像谷歌搜尋這樣的產品也在增強 Gemini 2.0 的功能,能夠處理複雜的查詢,例如高級數學問題、編碼查詢和多模態問題。
全面的 AI 創新套件
Gemini 2.0 的推出伴隨著一些引人注目的新工具,展示了其能力。
其中一個功能是深度研究 (Deep Research),它作為 AI 研究助手,簡化了調查複雜主題的過程,將信息整理成綜合報告。另一個升級則增強了搜尋功能,提供 Gemini 驅動的 AI 概述,能夠解決複雜的多步用戶查詢。
該模型使用谷歌第六代張量處理單元 (TPUs),稱為 Trillium 進行訓練,皮查伊指出「Trillium 支持了 100% 的 Gemini 2.0 訓練和推理。」
Trillium 現在對外部開發者開放,讓他們也能受益於支持谷歌自身進步的基礎設施。
開創代理體驗
Gemini 2.0 除了推出外,還有一些實驗性的「代理」原型,旨在探索人類與 AI 協作的未來,包括:
專案 Astra (Project Astra):一個通用的 AI 助手
專案 Astra 今年早些時候在 I/O 大會上首次介紹,利用 Gemini 2.0 的多模態理解來改善現實世界的 AI 互動。受信任的測試者在 Android 上試用了這個助手,提供的反饋幫助改進了其多語言對話、記憶保留和與谷歌工具如搜尋、鏡頭 (Lens) 和地圖 (Maps) 的整合。Astra 還展示了接近人類的對話延遲,並正在進行進一步研究,以便應用於可穿戴技術,如原型 AI 眼鏡。
專案 Mariner (Project Mariner):重新定義網路自動化
專案 Mariner 是一個實驗性的網頁瀏覽助手,利用 Gemini 2.0 在文本、圖像和互動元素(如表單)中的推理能力。在初步測試中,它在 WebVoyager 基準測試中達到了 83.5% 的成功率,完成端到端的網頁任務。早期測試者使用 Chrome 擴展來幫助改進 Mariner 的能力,同時谷歌也在評估安全措施,以確保技術保持用戶友好和安全。
Jules:為開發者設計的編碼助手
Jules 是一個為開發者打造的 AI 助手,直接整合到 GitHub 工作流程中,以解決編碼挑戰。它能夠自主提出解決方案、生成計劃並執行基於代碼的任務,所有這些都在人工監督下進行。這一實驗性工作是谷歌長期目標的一部分,旨在創造各個領域的多功能 AI 代理。
遊戲應用及其他
谷歌 DeepMind 正在與遊戲合作夥伴如 Supercell 合作,將 Gemini 2.0 的應用擴展到虛擬環境中,開發智能遊戲代理。這些實驗性的 AI 夥伴能夠實時解釋遊戲行為,建議策略,甚至通過搜尋訪問更廣泛的知識。研究還在進行中,探索 Gemini 2.0 的空間推理如何支持機器人技術,為未來的實體應用開啟大門。
在 AI 發展中強調責任
隨著 AI 能力的擴展,谷歌強調優先考慮安全和道德考量的重要性。
谷歌表示,Gemini 2.0 經過了廣泛的風險評估,並由責任與安全委員會進行監督,以減輕潛在風險。此外,其內建的推理能力允許進行高級的「紅隊測試」,使開發者能夠評估安全情境並優化安全措施。
谷歌還在探索保障措施,以解決用戶隱私問題,防止濫用,並確保 AI 代理保持可靠。例如,專案 Mariner 設計優先考慮用戶指令,同時抵抗惡意提示注入,防止網路釣魚或詐騙交易等威脅。與此同時,專案 Astra 的隱私控制使得用戶能輕鬆管理會話數據和刪除偏好。
皮查伊重申了公司對負責任發展的承諾,表示:「我們堅信,建立 AI 的唯一方法就是從一開始就負責任。」
隨著 Gemini 2.0 Flash 的發布,谷歌正逐步接近其建立通用助手的願景,能夠改變各個領域的互動。
想了解更多來自行業領袖的 AI 和大數據資訊嗎?請查看在阿姆斯特丹、加州和倫敦舉行的 AI 和大數據博覽會。這個全面的活動與其他領先活動如智能自動化會議、BlockX、數位轉型週和網絡安全與雲博覽會共同舉行。
探索由 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!