前言
Google 的 Gemini Diffusion 模型開放試玩了!✨
它跟現在常見的文字生成模型不同,不是一個一個字逐字生成,而是像生成圖片的 Diffusion 模型,從一開始雜訊慢慢變成清晰的圖片。
Gemini Diffusion 也是,從一開始不連貫的文字,迭代逐漸變通順 (但因為太快了,也看不清楚🤣),蠻奇特的感覺。
而且速度快好幾倍,我實測平均每秒大概 700~800 tokens (也有到 1100 tokens),生成長度越長、平均速度應該越快。
- 試玩網站 (可能要有加入候補名單):
https://deepmind.google.com/frontiers/gemini-diffusion
- Gemini Diffusion 官網:https://deepmind.google/models/gemini-diffusion/
- 官方介紹:https://blog.google/technology/google-deepmind/gemini-diffusion/

Gemini Diffusion 簡介
Gemini Diffusion 與目前一般主流的 LLM 模型架構,在生成方式、訓練方式上有很大的不同。
Autoregressive Language Model (自回歸模型,例如 GPT、Gemini 系列) 是以序列的方式生成資料,一次只能生成一個 token,也因此難以並行處理。
而 Diffusion Model (擴散模型) 是從隨機雜訊逐漸「去噪」回清晰的資料,目前主力在圖片生成方面 (例如 DALL·E、Stable Diffusion),但 Diffusion 模型最初是為連續數據 (如圖片) 設計的,文字是離散的數據,因此 Diffusion 模型在文字生成方面效果、成熟度還不如自回歸模型。
Google 號稱跟 Gemini 2.0 Flash-Lite 相比,可以提升到 5 倍速度。
官方展示影片:
但相比主流的自回歸模型,Diffusion 模型用在文字生成方面,表現還是略微遜色。
目前 Gemini Diffusion 大約同等於 Gemini 2.0 Flash-Lite 的分數:

試玩網站
Gemini Diffusion 試玩網站提供兩種介面 (頁面右上角):
- Playground
- Instant edit

Playground 介面
就像常見的聊天介面,一問一答的方式:
prompt:給我五種台灣五天自由行的詳細規劃
(3216 tokens / 3.992s = 806 tokens/s)
完成後下方會顯示 token 總數與耗時。

* 我也使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 158 tokens/s (總共 2722 tokens),差不多 Gemini Diffusion 就是它的 5.1 倍!
* 不過我不知道兩者背後的主機硬體是否相同,所以不確定這樣比較速度是否準確。
並且像是網頁的程式碼,也可以直接預覽和查看程式碼:
prompt:生成一個 todo list 前端網頁
(1791 tokens / 2.522s = 711 tokens/s)

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 182 tokens/s (總共 2243 tokens),是 Gemini Diffusion 的 3.9 倍。
測試寫 Python、C#、JavaScript 程式碼:
prompt:使用 Python 判斷網址是否為正確格式,不要使用正則表達式,並添加至少 5 個測試案例,然後將其翻譯為 C# 與 JS。解釋其時間複雜度。
(4131 tokens / 3.646s = 1134 tokens/s)

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 164 tokens/s (總共 1608 tokens),是 Gemini Diffusion 的 6.9 倍!
Instant edit 介面
有點類似很基礎的 ChatGPT Canvas 或 Gemini Canvas,可以幫你針對文章、程式碼去優化/簡化文字、更改格式、修復程式碼 bug,主要應該是 UI 上的不同。
針對有變更的部分,它會標示出來。
prompt:優化以上文章

結語
因為它是一次生成大範圍的文字,所以假如只是簡短的輸出,那平均速度就很慢了:

另外,
目前文字生成的擴散模型,商業用途開放的除了 Gemini Diffusion,應該只有 Inception 的 Mercury
,在 Mercury Coder Playground 登入就可以玩了。
所以假如你還沒辦法使用 Gemini Diffusion,也可以到 Mercury Coder 體驗一下 Diffusion Model 有趣的生成的效果。
如果對於 生成式 AI 有興趣的讀者,記得追蹤『 IT空間 』FB 粉專,才不會錯過最新的發文通知呦~🔔
參考:
Gemini Diffusion 官網
Gemini Diffusion is our new experimental research model
Gemini Diffusion 試玩網站
Smart people focus on the right things.
有智慧的人懂得專注於對的事情。—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)
🔻 如果覺得喜歡,歡迎在下方獎勵我 5 個讚~