在十二月,我們首次向受信任的測試者介紹了 Gemini 2.0 Flash 的原生圖像輸出。今天,我們將這項功能開放給所有目前由 Google AI Studio 支援的地區的開發者進行實驗。你可以在 Google AI Studio 使用實驗版本的 Gemini 2.0 Flash (gemini-2.0-flash-exp) 和 Gemini API 來測試這個新功能。
Gemini 2.0 Flash 結合了多模態輸入、增強推理和自然語言理解來創建圖像。
以下是 2.0 Flash 的多模態輸出表現突出的幾個例子:
1. 文字和圖像結合
使用 Gemini 2.0 Flash 講故事,它會用圖片來插畫,並保持角色和場景的一致性。給它反饋後,模型會重新講述故事或改變畫風。
2. 對話式圖像編輯
Gemini 2.0 Flash 幫助你通過自然語言對話來編輯圖像,非常適合不斷調整以達到完美的圖像,或者一起探索不同的想法。
3. 世界理解
與許多其他圖像生成模型不同,Gemini 2.0 Flash 利用世界知識和增強推理來創建正確的圖像。這使它非常適合創建詳細且真實的圖像,例如插畫食譜。雖然它努力追求準確性,但像所有語言模型一樣,它的知識是廣泛和一般性的,而不是絕對或完整的。
4. 文字呈現
大多數圖像生成模型在準確呈現長文本序列方面表現不佳,經常導致格式不良或難以辨認的字元,或拼寫錯誤。內部基準顯示,2.0 Flash 的呈現效果比主要競爭模型更強,適合用來創建廣告、社交媒體貼文或甚至邀請函。
今天就開始使用 Gemini 創建圖像
通過 Gemini API 開始使用 Gemini 2.0 Flash。請在我們的文檔中了解更多有關圖像生成的資訊。
無論你是建立 AI 代理、開發具有美麗視覺效果的應用程式(例如插畫互動故事),還是通過對話來腦力激盪視覺想法,Gemini 2.0 Flash 都可以讓你只用一個模型就能添加文字和圖像生成。我們期待看到開發者利用原生圖像輸出創造的作品,你的反饋將幫助我們儘快完成生產就緒的版本。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!