Gemini Diffusion 模型開放試玩，速度快 5 倍！

前言

Google 的 Gemini Diffusion 模型開放試玩了！✨

它跟現在常見的文字生成模型不同，不是一個一個字逐字生成，而是像生成圖片的 Diffusion 模型，從一開始雜訊慢慢變成清晰的圖片。

Gemini Diffusion 也是，從一開始不連貫的文字，迭代逐漸變通順 (但因為太快了，也看不清楚🤣)，蠻奇特的感覺。

而且速度快好幾倍，我實測平均每秒大概 700～800 tokens (也有到 1100 tokens)，生成長度越長、平均速度應該越快。

試玩網站 (可能要有加入候補名單)：
https://deepmind.google.com/frontiers/gemini-diffusion

Gemini Diffusion 官網：https://deepmind.google/models/gemini-diffusion/
官方介紹：https://blog.google/technology/google-deepmind/gemini-diffusion/

Gemini Diffusion 簡介

Gemini Diffusion 與目前一般主流的 LLM 模型架構，在生成方式、訓練方式上有很大的不同。

Autoregressive Language Model (自回歸模型，例如 GPT、Gemini 系列) 是以序列的方式生成資料，一次只能生成一個 token，也因此難以並行處理。

而 Diffusion Model (擴散模型) 是從隨機雜訊逐漸「去噪」回清晰的資料，目前主力在圖片生成方面 (例如 DALL·E、Stable Diffusion)，但 Diffusion 模型最初是為連續數據 (如圖片) 設計的，文字是離散的數據，因此 Diffusion 模型在文字生成方面效果、成熟度還不如自回歸模型。

Google 號稱跟 Gemini 2.0 Flash-Lite 相比，可以提升到 5 倍速度。

官方展示影片：

但相比主流的自回歸模型，Diffusion 模型用在文字生成方面，表現還是略微遜色。

目前 Gemini Diffusion 大約同等於 Gemini 2.0 Flash-Lite 的分數：

試玩網站

Gemini Diffusion 試玩網站提供兩種介面 (頁面右上角)：

Playground
Instant edit

Playground 介面

就像常見的聊天介面，一問一答的方式：

prompt：給我五種台灣五天自由行的詳細規劃

(3216 tokens / 3.992s = 806 tokens/s)

完成後下方會顯示 token 總數與耗時。

* 我也使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt，生成速度為 158 tokens/s (總共 2722 tokens)，差不多 Gemini Diffusion 就是它的 5.1 倍！
* 不過我不知道兩者背後的主機硬體是否相同，所以不確定這樣比較速度是否準確。

並且像是網頁的程式碼，也可以直接預覽和查看程式碼：

prompt：生成一個 todo list 前端網頁

(1791 tokens / 2.522s = 711 tokens/s)

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt，生成速度為 182 tokens/s (總共 2243 tokens)，是 Gemini Diffusion 的 3.9 倍。

測試寫 Python、C#、JavaScript 程式碼：

prompt：使用 Python 判斷網址是否為正確格式，不要使用正則表達式，並添加至少 5 個測試案例，然後將其翻譯為 C# 與 JS。解釋其時間複雜度。

(4131 tokens / 3.646s = 1134 tokens/s)

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt，生成速度為 164 tokens/s (總共 1608 tokens)，是 Gemini Diffusion 的 6.9 倍！

Instant edit 介面

有點類似很基礎的 ChatGPT Canvas 或 Gemini Canvas，可以幫你針對文章、程式碼去優化/簡化文字、更改格式、修復程式碼 bug，主要應該是 UI 上的不同。

針對有變更的部分，它會標示出來。

prompt：優化以上文章

結語

因為它是一次生成大範圍的文字，所以假如只是簡短的輸出，那平均速度就很慢了：

另外，
目前文字生成的擴散模型，商業用途開放的除了 Gemini Diffusion，應該只有 Inception 的 Mercury ，在 Mercury Coder Playground 登入就可以玩了。

所以假如你還沒辦法使用 Gemini Diffusion，也可以到 Mercury Coder 體驗一下 Diffusion Model 有趣的生成的效果。

如果對於生成式 AI 有興趣的讀者，記得追蹤『 IT空間』FB 粉專，才不會錯過最新的發文通知呦~🔔

參考：
Gemini Diffusion 官網
 Gemini Diffusion is our new experimental research model
Gemini Diffusion 試玩網站

Smart people focus on the right things.
有智慧的人懂得專注於對的事情。
—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~