Google AI Studio 透過圖片影片與 Gemini 聊天

前言

最近 Google AI Studio 上多了新模型與幾個新功能 ✨，例如可以查看並生成圖片的模型、對話可插入 YouTube 影片，
本篇文章紀錄幾個我覺得有趣的用法，主要是圖片與影片方面的應用。

如果各位還有什麼特殊的用法，也歡迎在文章底下或 FB 粉專『 IT空間』留言分享，有可能我就會收錄進文章內~

Google AI Studio：https://aistudio.google.com/

Google AI Studio

Google AI Studio：https://aistudio.google.com/

Google AI Studio 跟一般大家使用的 Gemini 聊天網站不太一樣，
Google AI Studio 主要是給開發者使用的網站，能使用最新的 Gemini 模型(包含實驗中模型)、許多參數設定、不會被 System Prompt 限制，而且 Google 有做一些應用可以讓我們嘗試、體驗。

選擇模型、參數設定

首先網頁右邊，可以切換不同模型 (多種 Gemini 版本、開源的 Gemma)、設定生成創意度、safety 安全性設定、比較兩種不同模型的輸出…。

如何插入素材

如果要在對話中插入圖片、影片、聲音、檔案…等等素材，只需要點選下方輸入框的右邊「加號」。

目前支援從自己電腦上傳、電腦鏡頭麥克風、Google Drive、YouTube 影片、官方範例。

應用案例

圖片

如果需要 "生成圖片"，記得模型要切換成「Gemini 2.0 Flash (Image Generation) Experimental」，並且 Output format 要切換成「Images and text」。

圖文故事書

生成圖文並茂的故事書，
當然更好的做法是先多次問答完成故事內容後，再來請它生成每一頁的圖片。

可以發現它生成圖片的角色樣子，從頭到尾都能保持一致性。

以日本動畫風格生成一隻雷電屬性的松鼠在山林間冒險的故事。對於每個場景，產生一張圖片。

編輯圖片

在原本的圖片中，加入物件或改變場景，考驗就在於生成的圖片不能去動到原本不想改變的物體。

* 建議可縮小 Temperature，生成結果才會盡量保持原有的圖案。

在照片中加入一顆紅色的氣球，並把背景換成草地

產品展示

試著將圖片合成到衣服，並穿在模特兒身上。

將這張圖片放置到白色 T-Shirt 上

亞洲台灣女性穿著這件 T-Shirt 搭配牛仔褲，正面全身照

* 我本來還想給另一張照片來指定姿勢，但試了很多次無法成功…

文字卡片

Gemini 2.0 也有針對文字渲染做強化，比較不會發生拼寫錯誤或奇奇怪怪的字母。

設計一張有花朵與蛋糕裝飾的生日卡片。
用較大的文字撰寫 “Happy Birthday!"，
以及較小的文字寫 “Wishing you a day filled with joy, laughter, and all your favorite things.
Cheers to you!”

可惜對於中文字還是不太能用，文字看起來有種似懂非懂的感覺 🤣🤣

設計一張有花朵與蛋糕裝飾的生日卡片。
用較大的文字撰寫 “生日快樂”，
以及較小的文字寫 “願你永遠保持樂觀積極的心態，面對生活中的挑戰！”

影片

它不是像許多網頁上的工具，只是抓取 CC 字幕來處理，而是真的會「看」影片！

影片重點摘錄、總結整理這種就先不用說了，分享幾個不同的應用~

逐字稿

例如我給它一個沒有 CC 字幕的新聞影片，請它整理出影片的逐字稿 (並且區分不同說話的人)，
可以發現，像是說話者的名字，它就會從影片中擷取！

https://www.youtube.com/watch?v=oVL19M2T9wI
整理出影片的逐字稿，並且區分不同說話的人

提問

可以針對影片內容進行提問，詢問感興趣的部分。

https://www.youtube.com/watch?v=dTYbTsu0s3w
記者總共提問了哪些問題？

新聞文章

將影片內容整理成一篇網路新聞，包含標題、副標題、新聞內容。

這邊我就以最近討論度非常高的 Andy 老師為例，各位可以看看 Gemini 寫得如何？🤔

https://www.youtube.com/watch?v=kOZWQgtqps4
你是一位八卦版記者，看完這部影片後，寫一篇網路新聞。
需要聳動的標題、副標題和 300 字內容。

結語

如果對於輸出結果不滿意，可以先從以下幾點嘗試：

調整下的指令 (也可以改成英文試試)
切換不同模型 (困難問題使用 Gemini 2.0 Pro、需要思考的邏輯問題使用 Gemini 2.0 Flash Thinking)
調整生成 Temperature 創意度 (需要比較精確就縮小、發想創意就調大)

LLM (大型語言模型) 出來後潛力太大了，而且現在還支援輸入影像、聲音等等多模態。

各位可以自己在 Google AI Studio 上面嘗試天馬行空的想法，看能不能發掘出不同的應用~

對生成式 AI 感興趣的各位，
歡迎追蹤 FB 粉專『 IT空間』，以免錯過最新的發文通知呦~🔔

參考：
Google AI Studio
Experiment with Gemini 2.0 Flash native image generation

我不需要每一個人都愛我的一切
我只需要一次機會為自己愛一遍
我相信即使不完美 a rock can be a star
沒流下那眼淚怎會懂夢有多珍貴？
—— 《我不需要每一個人都愛我》八三夭 831

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~