Gemini 2.0 Flash 免費玩，實時視訊語音、圖片理解，體驗 AI 的強大

前言

前天 (12/11) Google 宣布 Gemini 2.0，說是專為代理時代打造的全新模型✨，並且首先推出「Gemini 2.0 Flash (Experimental)」模型。

為了展示 Gemini 2.0 的新功能，Google 在 Google AI Studio 有介面可以讓我們嘗鮮玩玩。

除了有類似之前 Demo 的 Project Astra 可以實時視訊+語音互動的強大功能之外，還有圖片空間理解、分析影片、串接地圖顯示…等等，
就來快速帶大家來體驗一下吧~

* 題外話 1：結果隔一天，OpenAI 的高級語音模式就推出一樣的實時視訊功能了 (包含螢幕分享)。火藥味濃厚XD
* 題外話 2：Google 還有發表 Deep Research 工具，代替使用者上網搜尋(而且可能蒐集超過百篇來源)、分析，並整理成研究報告。

Gemini 2.0

Gemini 2.0 Flash 在關鍵基準測試中的表現超越 1.5 Pro，甚至速度達到 1.5 Pro 的兩倍。除了文字、圖像、影片、音訊輸入外，還能原生圖像、音訊輸出！

Gemini 2.0 Flash 現已在 Google AI Studio 和 Vertex AI 中開放，全球的 Gemini 使用者也可在桌面與行動網頁選擇 2.0 Flash，也即將在 Gemini 行動 APP 上線～

Google AI Studio

Stream Realtime

Stream Realtime | Google AI Studio

在這邊可以使用「鏡頭+麥克風」來跟 Gemini 實時互動，有點類似之前 Demo 展示的 Project Astra 那樣 (只是還沒這麼厲害😅)。

例如拿著手機到處走，問它這是什麼、那是什麼，或者也可以用螢幕分享給它，問它如何操作之類的，可以應用的範圍很廣。
而且因為 Gemini 2.0 原生多模態就可以語音輸入輸出，因此它還會因為情境變換不同語氣、語速等等，甚至還可以中途打斷它。

在文章用文字不好展示，各位可以自己實際去玩玩看~

* 不過可惜的是目前好像不支援中文語音輸出，但你還是可以用中文語音問它，請它用英文回覆 (或設定文字回覆，就可以用中文了)。

Starter Apps

Starter Apps | Google AI Studio

在這頁 Google 製作了三種 App，讓你體驗 Gemini 2.0 在圖片空間理解、影片分析、串接地圖的應用。

* 如果你是程式開發者，想自己手動寫程式碼互動，可以參考官方的 GitHub 專案範例

Spatial Understanding

Spatial Understanding (空間理解) 除了基本的找出圖片中的物品，例如請它從圖片中找出魔法棒：

還可以當日文菜單看不懂，請它找出來標記並翻譯成中文：

或者找出汙漬並教我如何清理：

官方展示影片：https://www.youtube.com/watch?v=-XmoDzDMqj4

* 官方有寫 “Points 和 3D bounding boxes 還只是初步模型的功能，使用 2D bounding boxes 可以獲得更高的精準度。”

Video Analyzer

Video Analyzer (影片分析器) 可以分析影片的場景、總結、擷取文字、搜尋物件等等。

Map Explorer

Map Explorer (地圖瀏覽器) 可以問國家、景點、地理之類的問題，它會在 Google 地圖上自動定位到答案提及的地點，讓你輕鬆探索世界各地~

其他測試

辨識歌曲歌詞

來試試 Gemini 2.0 Flash 讀取音檔辨識歌詞的能力，給它歌曲的音檔，請它辨識並整理出歌詞 (LRC 格式)。

我這邊使用周杰倫的 "等你下課"，挑戰稍微有點咬字不清 XD，看看模型辨識的效果如何：

(Temperature 設定 0.5)

也順便拿 Gemini 1.5 Pro 模型來比較：

跟原歌詞做對照，
雖然都有小部分辨識錯誤，但明顯 2.0 Flash Experimental 優於 1.5 Pro，而且 1.5 Pro 後面還給我錯誤變成簡體中文…

雖然拿 Flash 跟 Pro 模型比較有點不公平，但這也能看出 Gemini 2.0 進步了不少。

不過不知道為什麼輸出歌詞沒有完全，大概只到一半，看起來應該還沒超過 Output length 限制 8192 tokens 才對。

原生使用工具

Gemini 2.0 原生支援使用工具，像是可以執行程式碼或者 Google 搜尋，跟它做即時的互動與反饋。

使用 Google 搜尋可以更確保回答的真實性，可以從多個來源查找相關資料，並組合起來使回答更全面。
(官方還有提到這樣也可以 "增加提供者網站的流量" 😆)

例如我直接問它「2024世界棒球12強冠軍是哪一隊？」，它會說比賽還沒開始或不知道：

但當打開 Google 搜尋 (Grounding) 功能後，它會先去網路搜尋資料，從而得到即時&正確的回答：

* 程式使用方法可以參考官方文件，不需要再另外串搜尋 API 了：以 Google 搜尋建立基準

官方展示與執行程式碼繪製圖表，可以看這部影片：

圖片生成、編輯

還有很強大的圖片生成、圖片編輯，它可以精確地修改指定區域，不會改動到其他部分，而且下的指令更口語化。或者組合兩張圖片，甚至推理可能的畫面。
這部分感覺很厲害，會讓 AI 圖片編輯更實用！

目前這部分好像尚未開放給一般大眾，所以可以先從官方展示影片一窺究竟：

官方範例程式碼

針對開發者，Google 也有提供一些各功能入門範例程式碼，給大家參考：
https://github.com/google-gemini/cookbook/tree/main/gemini-2

結語

因為模型訓練時主要還是英文資料，所以如果你在使用 Gemini 上結果不太理想的話，建議可以換成英文下指令。

以上的應用都只是使用 Gemini 2.0 Flash 模型，等以後 Gemini 2.0 Pro 模型出來，效果一定會更好、更強大~

下方附上其他 Gemini 2.0 參考文章，感興趣的可以連結過去閱讀。

如果對於生成式 AI 有興趣的讀者，記得追蹤『 IT空間』FB 粉專，才不會錯過最新的發文通知呦~🔔

參考：
Gemini 2.0 簡介
 Gemini 2.0 Flash 新功能介紹
 Google 推出新一代 Gemini 2.0！可直接使用搜尋、各種模態無縫融合
 Google：AI 代理時代降臨！一口氣發表自動瀏覽網站、網購、打電動的 AI 助理

Don't be afraid to think different and challenge the status.
不要害怕以不同的方式思考並挑戰現狀。
—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~