請啟用 JavaScript 來查看內容

Gemini Diffusion 模型開放試玩,速度快 5 倍!

前言

Google 的 Gemini Diffusion 模型開放試玩了!✨


它跟現在常見的文字生成模型不同,不是一個一個字逐字生成,而是像生成圖片的 Diffusion 模型,從一開始雜訊慢慢變成清晰的圖片。

Gemini Diffusion 也是,從一開始不連貫的文字,迭代逐漸變通順 (但因為太快了,也看不清楚🤣),蠻奇特的感覺。

而且速度快好幾倍,我實測平均每秒大概 700~800 tokens (也有到 1100 tokens),生成長度越長、平均速度應該越快。




Gemini Diffusion 網站
Gemini Diffusion 網站

Gemini Diffusion 簡介

Gemini Diffusion 與目前一般主流的 LLM 模型架構,在生成方式、訓練方式上有很大的不同。

Autoregressive Language Model (自回歸模型,例如 GPT、Gemini 系列) 是以序列的方式生成資料,一次只能生成一個 token,也因此難以並行處理。

而 Diffusion Model (擴散模型) 是從隨機雜訊逐漸「去噪」回清晰的資料,目前主力在圖片生成方面 (例如 DALL·E、Stable Diffusion),但 Diffusion 模型最初是為連續數據 (如圖片) 設計的,文字是離散的數據,因此 Diffusion 模型在文字生成方面效果、成熟度還不如自回歸模型。


Google 號稱跟 Gemini 2.0 Flash-Lite 相比,可以提升到 5 倍速度。

官方展示影片:


但相比主流的自回歸模型,Diffusion 模型用在文字生成方面,表現還是略微遜色。

目前 Gemini Diffusion 大約同等於 Gemini 2.0 Flash-Lite 的分數:

Playground - Benchmark
Playground - Benchmark

試玩網站

Gemini Diffusion 試玩網站提供兩種介面 (頁面右上角):

  • Playground
  • Instant edit

Gemini Diffusion 試玩網站
Gemini Diffusion 試玩網站

Playground 介面

就像常見的聊天介面,一問一答的方式:

prompt:給我五種台灣五天自由行的詳細規劃

(3216 tokens / 3.992s = 806 tokens/s)

完成後下方會顯示 token 總數與耗時。

Playground - 行程規劃
Playground - 行程規劃

* 我也使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 158 tokens/s (總共 2722 tokens),差不多 Gemini Diffusion 就是它的 5.1 倍!
* 不過我不知道兩者背後的主機硬體是否相同,所以不確定這樣比較速度是否準確。


並且像是網頁的程式碼,也可以直接預覽和查看程式碼:

prompt:生成一個 todo list 前端網頁

(1791 tokens / 2.522s = 711 tokens/s)

Playground - 前端網頁
Playground - 前端網頁

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 182 tokens/s (總共 2243 tokens),是 Gemini Diffusion 的 3.9 倍。


測試寫 Python、C#、JavaScript 程式碼:

prompt:使用 Python 判斷網址是否為正確格式,不要使用正則表達式,並添加至少 5 個測試案例,然後將其翻譯為 C# 與 JS。解釋其時間複雜度。

(4131 tokens / 3.646s = 1134 tokens/s)

Playground - Python、C#、JavaScript 程式碼
Playground - Python、C#、JavaScript 程式碼

* 使用 Gemini 2.0 Flash-Lite 輸入一樣的 prompt,生成速度為 164 tokens/s (總共 1608 tokens),是 Gemini Diffusion 的 6.9 倍!


Instant edit 介面

有點類似很基礎的 ChatGPT Canvas 或 Gemini Canvas,可以幫你針對文章、程式碼去優化/簡化文字、更改格式、修復程式碼 bug,主要應該是 UI 上的不同。

針對有變更的部分,它會標示出來。

prompt:優化以上文章

Instant edit - 優化文章
Instant edit - 優化文章

結語

因為它是一次生成大範圍的文字,所以假如只是簡短的輸出,那平均速度就很慢了:

Gemini Diffusion 簡短的輸出
Gemini Diffusion 簡短的輸出


另外,
目前文字生成的擴散模型,商業用途開放的除了 Gemini Diffusion,應該只有 Inception 的 Mercury ,在 Mercury Coder Playground 登入就可以玩了。

所以假如你還沒辦法使用 Gemini Diffusion,也可以到 Mercury Coder 體驗一下 Diffusion Model 有趣的生成的效果。



如果對於 生成式 AI 有興趣的讀者,記得追蹤『 IT空間 』FB 粉專,才不會錯過最新的發文通知呦~🔔




參考:
Gemini Diffusion 官網
Gemini Diffusion is our new experimental research model
Gemini Diffusion 試玩網站


Smart people focus on the right things.
有智慧的人懂得專注於對的事情。

—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)


🔻 如果覺得喜歡,歡迎在下方獎勵我 5 個讚~
分享

Jia
作者
Jia
軟體工程師 - Software Engineer