前言
前天 (12/11) Google 宣布 Gemini 2.0,說是專為代理時代打造的全新模型✨,並且首先推出「Gemini 2.0 Flash (Experimental)」模型。
為了展示 Gemini 2.0 的新功能,Google 在 Google AI Studio 有介面可以讓我們嘗鮮玩玩。
除了有類似之前 Demo 的 Project Astra 可以實時視訊+語音互動的強大功能之外,還有圖片空間理解、分析影片、串接地圖顯示…等等,
就來快速帶大家來體驗一下吧~
* 題外話 1:結果隔一天,OpenAI 的高級語音模式就推出一樣的實時視訊功能了 (包含螢幕分享)。火藥味濃厚XD
* 題外話 2:Google 還有發表 Deep Research 工具,代替使用者上網搜尋(而且可能蒐集超過百篇來源)、分析,並整理成研究報告。
Gemini 2.0
Gemini 2.0 Flash 在關鍵基準測試中的表現超越 1.5 Pro,甚至速度達到 1.5 Pro 的兩倍。除了 文字、圖像、影片、音訊 輸入外,還能原生圖像、音訊輸出!
Gemini 2.0 Flash 現已在 Google AI Studio 和 Vertex AI 中開放,全球的 Gemini 使用者也可在桌面與行動網頁選擇 2.0 Flash,也即將在 Gemini 行動 APP 上線~
Google AI Studio
Stream Realtime
Stream Realtime | Google AI Studio
在這邊可以使用「鏡頭+麥克風」來跟 Gemini 實時互動,有點類似之前 Demo 展示的 Project Astra 那樣 (只是還沒這麼厲害😅)。
例如拿著手機到處走,問它這是什麼、那是什麼,或者也可以用螢幕分享給它,問它如何操作之類的,可以應用的範圍很廣。
而且因為 Gemini 2.0 原生多模態就可以語音輸入輸出,因此它還會因為情境變換不同語氣、語速等等,甚至還可以中途打斷它。
在文章用文字不好展示,各位可以自己實際去玩玩看~
* 不過可惜的是目前好像不支援中文語音輸出,但你還是可以用中文語音問它,請它用英文回覆 (或設定文字回覆,就可以用中文了)。
Starter Apps
Starter Apps | Google AI Studio
在這頁 Google 製作了三種 App,讓你體驗 Gemini 2.0 在圖片空間理解、影片分析、串接地圖的應用。
* 如果你是程式開發者,想自己手動寫程式碼互動,可以參考官方的 GitHub 專案範例
Spatial Understanding
Spatial Understanding (空間理解) 除了基本的找出圖片中的物品,例如請它從圖片中找出魔法棒:
還可以當日文菜單看不懂,請它找出來標記並翻譯成中文:
或者找出汙漬並教我如何清理:
官方展示影片:https://www.youtube.com/watch?v=-XmoDzDMqj4
* 官方有寫 “Points 和 3D bounding boxes 還只是初步模型的功能,使用 2D bounding boxes 可以獲得更高的精準度。”
Video Analyzer
Video Analyzer (影片分析器) 可以分析影片的場景、總結、擷取文字、搜尋物件等等。
Map Explorer
Map Explorer (地圖瀏覽器) 可以問國家、景點、地理之類的問題,它會在 Google 地圖上自動定位到答案提及的地點,讓你輕鬆探索世界各地~
其他測試
辨識歌曲歌詞
來試試 Gemini 2.0 Flash 讀取音檔辨識歌詞的能力,給它歌曲的音檔,請它辨識並整理出歌詞 (LRC 格式)。
我這邊使用 周杰倫 的 "等你下課",挑戰稍微有點咬字不清 XD,看看模型辨識的效果如何:
(Temperature 設定 0.5)
也順便拿 Gemini 1.5 Pro 模型來比較:
跟原歌詞做對照,
雖然都有小部分辨識錯誤,但明顯 2.0 Flash Experimental 優於 1.5 Pro,而且 1.5 Pro 後面還給我錯誤變成簡體中文…
雖然拿 Flash 跟 Pro 模型比較有點不公平,但這也能看出 Gemini 2.0 進步了不少。
不過不知道為什麼輸出歌詞沒有完全,大概只到一半,看起來應該還沒超過 Output length 限制 8192 tokens 才對。
原生使用工具
Gemini 2.0 原生支援使用工具,像是可以執行程式碼或者 Google 搜尋,跟它做即時的互動與反饋。
使用 Google 搜尋可以更確保回答的真實性,可以從多個來源查找相關資料,並組合起來使回答更全面。
(官方還有提到這樣也可以 "增加提供者網站的流量" 😆)
例如我直接問它「2024世界棒球12強冠軍是哪一隊?」,它會說比賽還沒開始或不知道:
但當打開 Google 搜尋 (Grounding) 功能後,它會先去網路搜尋資料,從而得到即時&正確的回答:
* 程式使用方法可以參考官方文件,不需要再另外串搜尋 API 了:以 Google 搜尋建立基準
官方展示與執行程式碼繪製圖表,可以看這部影片:
圖片生成、編輯
還有很強大的圖片生成、圖片編輯,它可以精確地修改指定區域,不會改動到其他部分,而且下的指令更口語化。或者組合兩張圖片,甚至推理可能的畫面。
這部分感覺很厲害,會讓 AI 圖片編輯更實用!
目前這部分好像尚未開放給一般大眾,所以可以先從官方展示影片一窺究竟:
官方範例程式碼
針對開發者,Google 也有提供一些各功能入門範例程式碼,給大家參考:
https://github.com/google-gemini/cookbook/tree/main/gemini-2
結語
因為模型訓練時主要還是英文資料,所以如果你在使用 Gemini 上結果不太理想的話,建議可以換成英文下指令。
以上的應用都只是使用 Gemini 2.0 Flash 模型,等以後 Gemini 2.0 Pro 模型出來,效果一定會更好、更強大~
下方附上其他 Gemini 2.0 參考文章,感興趣的可以連結過去閱讀。
如果對於 生成式 AI 有興趣的讀者,記得追蹤『IT空間』FB 粉專,才不會錯過最新的發文通知呦~🔔
參考:
Gemini 2.0 簡介
Gemini 2.0 Flash 新功能介紹
Google 推出新一代 Gemini 2.0!可直接使用搜尋、各種模態無縫融合
Google:AI 代理時代降臨!一口氣發表自動瀏覽網站、網購、打電動的 AI 助理
Don't be afraid to think different and challenge the status.
不要害怕以不同的方式思考並挑戰現狀。—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)
🔻 如果覺得喜歡,歡迎在下方獎勵我 5 個讚~