請啟用 JavaScript 來查看內容

透過 Gemini 原生音訊,自動生成 Podcast 對話 (使用 Google AI Studio)

前言

這次 Google I/O 2025 公布了支援原生音訊輸出文字轉語音 (TTS) 的 Gemini 2.5 Pro 和 Flash,可以指定語音的風格、口音、速度和音調等等,而且還可以一次生成單一發言者或多位發言者。

同步,Google AI Studio 也加入 Gemini speech generation 介面,方便我們透過網頁 UI 直接試玩。

延伸閱讀:



我就想到 Google 的 NotebookLM,它透過 AI 自動從多篇文章整理並生成出一段通順、自然的語音摘要功能 (Audio Overview),是由兩位虛擬主持人對話的 Podcast 語音,非常的厲害,讓我很想一玩再玩。

那既然這次 Google 公布了原生音訊輸出文字轉語音,就想說感覺應該可以自己來試試,不管是逐字稿,還是對話語音,都由 Gemini 來生成 (我只要坐在旁邊看就好)。

相比 NotebookLM,透過此方法可以有更高的自由度、主控權,例如調整每一句要講什麼內容、Podcast 整體長度、細節語氣變化…等等。


成品效果會像這樣:


Google AI Studio > Gemini speech generation
Google AI Studio > Gemini speech generation

Gemini speech generation 介面

先來了解一下 Google AI Studio 的 Gemini speech generation 操作介面,在 Generate Media > Gemini speech generation。



直接先看右側的面板。

介面右側 - 語音設定
介面右側 - 語音設定

可以選擇生成語音的模型,目前有兩個模型可以選擇:

  • Gemini 2.5 Pro Preview TTS
  • Gemini 2.5 Flash Preview TTS

建議優先使用「Gemini 2.5 Pro Preview TTS」模型,我測試起來效果還是比較好的。


再來選擇要單一發言者或多位發言者(目前最多兩位):

  • Single-speaker audio
  • Multi-speaker audio

最後 "Voice settings " 個別設定他們的名字與語音風格。
語音風格每個都可以點擊播放鍵試聽,目前 共有 30 種語音風格 可以選擇。

* 雖然官方文件內寫 目前支援的語言沒有中文 ,但我測試中文結果還是不錯的。



看回中間的部分,設定文字腳本 (也就是我們希望它念的內容),分成左右兩邊 "Raw structure" 和 "Script builder",其實他們是一樣的內容,修改其中一邊,另一邊也會跟著同步。

之後我們生成的逐字稿內容,可以直接一次貼在左邊的 "Raw structure",較方便。
右邊的 "Script builder" 只是為了讓我們在 UI 上操作,並確認格式有沒有跑掉。

介面中間 - 文字腳本
介面中間 - 文字腳本

從文章生成 Podcast 語音

這次我們最主要的目的,是想要「從一篇文章去生成出一段 Podcast 風格的對話語音」。

我的基礎概念很簡單,就是先由 Gemini 模型將文章整理成 Podcast 逐字稿,再交由 Gemini TTS 模型去生成出 Podcast 語音檔案。

從文章生成 Podcast 語音
從文章生成 Podcast 語音

接下來,一起來實際看看該怎麼操作吧~🚀


生成 Podcast 逐字稿

首先,我們後續想透過 Gemini TTS 模型生成語音,就要先來了解它支援的腳本架構。

* 因為我想要的是兩人的 Podcast 風格,因此我是選擇 "Multi-speaker audio" (兩位發言者)。


介面中間 - 文字腳本 ("Multi-speaker audio")
介面中間 - 文字腳本 ("Multi-speaker audio")

它的開頭是 "Style instructions",可以針對風格、口音、速度、音調…等等去描述。


再來就是每位發言者說的內容,前面使用 Speaker 1:Speaker 2: 來標示 (這兩個名字可以換,記得要去右測面板 "Voice settings" 設定)

我測試發現,有關說話的語氣、情緒也可以寫在內容裡,不過要做點標示讓 AI 能懂,它才不會以為是逐字稿而唸出來,像我是使用 {{}} 符號來跟一般內容區隔。這部分官方沒有說明,用別的符號也可以,但不要用單個小括號 (),我測試過它有時候會不小心說出來 XD

* 如果不指定語氣、情緒,模型也會自動根據文字內容產生符合的,但這就像是通訊軟體內的文字訊息,同樣一句話,但不同人看,可能會有不同的理解與感受。因此明確標註語氣或情緒,能幫助模型生成更準確符合我們的預期。




了解腳本架構後,我們來到 " Google AI Studio > Chat "。


我這邊是使用 Gemini 2.5 Pro Preview 模型,比較聰明,效果應該會更好。

以下是我自己想出來的 prompt,各位可以直接複製來用,並依照自己的需求修改:

根據以下文章內容,整理出雙人 Podcast 逐字稿,遵循以下規則:
- 逐字稿使用繁體中文。
- 逐字稿總長度約 1000 字。
- 分別有 主持人 "Speaker 1" 與 主持人 "Speaker 2","Speaker 1" 為台灣人年輕女性、"Speaker 2" 為台灣人年輕男性。
- 如果有必要,主持人互相使用 "你" 稱呼。
- 皆使用台灣用語、台灣連接詞,可以適時使用台灣狀聲詞。
- 如果有需要描述語氣、情緒,使用 "{{}}",例如 "{{哈哈大笑}}" 或 "{{難過情緒}}"。
- 只需要輸出逐字稿,不需要其他說明。
- <其他要求,例如流程、架構、著重特定聽者>

逐字稿範例:
```
Speaker 1: {{驚嘆}} 哇塞!各位聽眾朋友,你們知道嗎?
Speaker 2: {{疑問語氣}} 最近有什麼有趣的新聞嗎?
Speaker 1: NotebookLM 最近加入一個「Audio Overviews」新功能。
Speaker 2: {{小小的疑問}} 你是說 Google 推出的 NotebookLM 嗎?
Speaker 1: 沒錯!它最近有個新功能,可以把 PDF、影片、圖檔這些資料,直接做成精美的簡報,而且還有圖片跟流暢的旁白喔!據說它可能用了那個很威的影片生成模型 Veo2。
Speaker 2: {{語氣轉折、好奇}} 不過咧,講到這裡,可能有些台灣朋友會想說:「{{疑問語氣}} 那中文版可以用嗎?」
Speaker 1: {{微微嘆氣}} 欸,很可惜,目前中文版的 NotebookLM 還沒看到這個 Video Overviews 的功能...
```

文章內容:
```
<文章內容貼這裡>
```

例如我餵給它這篇文章: Gemini 2.5: Our most intelligent models are getting even better

生成 Podcast 逐字稿
生成 Podcast 逐字稿

可以看到有依照我們的指令,生成較符合台灣人的用語、語助詞,這樣可以讓後續結果更人性化、自然~

("發摟"、"哇塞"、"很威欸"、"最屌的" 🤣🤣🤣)

Speaker 1: {{興奮}} 欸欸欸!各位聽眾朋友,你們最近有沒有發摟到 Google AI 的最新動態啊?他們家最近可是動作頻頻耶!

Speaker 2: {{好奇}} 喔?Google AI 嗎?他們那個 Gemini 不是才剛推出 2.5 Pro 沒多久?又有新東西啦?感覺他們最近火力全開耶!

Speaker 1: 對啊!就是那個 Gemini 2.5 模型系列,這次又有超~多~更新!我跟你說,首先就是那個 Gemini 2.5 Pro,聽說現在更猛了!

Speaker 2: {{挑眉}} 更猛?它之前在學術評測上不是就已經很強了嗎?這次又進化到什麼程度啊?

Speaker 1: 不只學術評測厲害喔!它現在在那個 WebDev Arena 跟 LMArena 的排行榜上,都是第一名耶!這兩個排行榜可是很看重實際應用跟使用者偏好的,能拿第一很不簡單。

Speaker 2: {{驚訝}} 哇塞!那表示它不只是會考試,實際用起來也很罩欸!那還有什麼特別的?

Speaker 1: 還有啊,它那個一百萬 token 的超長上下文視窗,聽說在理解長篇內容跟影片方面,根本是頂尖高手!而且,他們還整合了 LearnLM,就是那個跟教育專家一起打造的模型家族,所以 2.5 Pro 現在在「學習」這塊也變成領導者了!

Speaker 2: LearnLM?所以是說,如果我要用 AI 來學習新東西,Gemini 2.5 Pro 會是首選囉?{{思考中}}

Speaker 1: {{點頭}} 沒錯!很多教育專家跟老師都說,在教學效果跟教學方法上,Gemini 2.5 Pro 比其他模型更讚,幾乎在所有學習科學的原則評估上都拿第一!

Speaker 2: 聽起來很威欸!那除了 Pro 版,這次更新還有什麼亮點啊?

Speaker 1: 多了咧!這次 2.5 Pro 跟 2.5 Flash 都加了一些超酷的新功能!有一個我個人超期待的,就是「原生音訊輸出」!

Speaker 2: {{小小疑問}} 原生音訊輸出?那是什麼意思?是說它可以直接講話,而且聲音聽起來更自然、更有感情嗎?

Speaker 1: {{雀躍}} 完全正確!就是讓 Gemini 講話更像真人,更有表達力。你還可以指定它的語氣、口音,甚至是說話風格耶!比如說,叫它用很戲劇化的聲音講故事!

Speaker 2: {{眼睛一亮}} 欸!那不是很酷!以後跟 AI 聊天,搞不好真的會分不出來對方是真人還是機器耶!

Speaker 1: {{竊笑}} 很有可能喔!而且它還有「情感對話」功能,可以偵測你講話的語氣跟情緒,然後做出適當的回應。還有「主動音訊」,它會聰明到忽略背景的雜音,知道什麼時候該接話,什麼時候該閉嘴。

Speaker 2: 哇,這個「主動音訊」聽起來很貼心耶!不怕講到一半被隔壁的聲音打斷了。那文字轉語音 (TTS) 的部分呢?有沒有一起升級?

Speaker 1: 當然有!文字轉語音現在也有新的預覽版,而且最屌的是,它支援「多個說話者」!意思就是,它可以同時用兩種不同的聲音念同一段文字,而且是原生的音訊輸出喔!

Speaker 2: {{興奮}} 真的假的?!那這樣以後我們做 Podcast,是不是可以請 Gemini 來當嘉賓,直接生成雙人對話了?{{開玩笑語氣}}

Speaker 1: {{哈哈大笑}} 搞不好喔!而且它可以呈現那種很細微的語氣,像是悄悄話那樣,還支援超過 24 種語言,切換自如!

Speaker 2: 太強了吧!那除了聲音之外,還有什麼新花樣嗎?

Speaker 1: 還有一個叫做「Project Mariner」的電腦使用能力,也整合到 Gemini API 跟 Vertex AI 裡面了。簡單來說,就是讓 AI 更能理解和操作電腦上的應用程式,有點像讓它有了一雙可以在電腦上操作的手。

Speaker 2: {{恍然大悟}} 喔~這個聽起來對提升工作效率、做一些自動化流程會很有幫助耶!那安全性呢?AI 越來越強,大家也會擔心資安問題吧?

Speaker 1: 嗯嗯,這點 Google 也有想到。他們說這次有特別強化針對像是「間接提示注入」這種安全威脅的防護。聽說 Gemini 2.5 是目前他們家最安全的模型家族了。

Speaker 2: 這很重要!不然 AI 越聰明,萬一被壞人利用就糟了。

Speaker 1: 對了對了,還有一個超酷的實驗性功能,叫做「Deep Think」!這是 2.5 Pro 的一個強化推理模式。

Speaker 2: {{好奇}} Deep Think?聽起來就很深奧。它特別在哪裡啊?

Speaker 1: 它在回答問題之前,會先考慮多種假設,對於那種超~級~複雜的數學和程式設計問題特別有效。聽說它在 2025 年美國數學奧林匹亞那種超難的數學基準測試,還有程式競賽的 LiveCodeBench 上面,都拿到了很驚人的分數!

Speaker 2: {{讚嘆}} 哇!連奧林匹亞等級的數學題目都能解?那真的是很「Deep」的「Think」欸!不過你說是實驗中?

Speaker 1: {{語氣稍微認真}} 對啊,因為這個功能實在太前沿了,所以他們需要更多時間進行安全評估,還會先開放給一些信任的測試人員,收集回饋之後才會更廣泛地推出。

Speaker 2: 這樣比較保險啦。那剛剛講了很多 Pro 版的,Flash 版呢?它不是主打快速跟低成本嗎?這次有變更強嗎?

Speaker 1: 有喔!2.5 Flash 這次也全面升級了!在推理、多模態能力、程式碼理解和長文本處理方面都有進步,而且還更有效率,評估下來 token 的用量少了大概 20% 到 30% 耶!

Speaker 2: {{眼睛一亮}} 欸,那很不錯耶!又快又省,CP 值更高了!那… 我們現在用得到這個新的 2.5 Flash 了嗎?

Speaker 1: {{開心}} 用得到!新的 2.5 Flash 現在已經在 Gemini App 裡面開放給大家使用了!開發者可以在 Google AI Studio 預覽,企業用戶則是在 Vertex AI。而且聽說六月初就會正式上線,到時候大家就可以用到飽啦!2.5 Pro 也會在之後跟進。

Speaker 2: 太棒了!那針對我們這種(偽)開發者,這次有沒有什麼貼心的更新啊?{{開玩笑語氣}}

Speaker 1: {{輕笑}} 有啦!這次針對開發者體驗也有不少提升。像是「思考摘要」,模型在思考過程中的一些想法,會用更清楚、更有條理的格式呈現出來,方便開發者理解模型是怎麼想的,也更容易除錯。

Speaker 2: 這個好!有時候真的搞不懂 AI 到底在想什麼。還有嗎?

Speaker 1: 還有「思考預算」。之前 2.5 Flash 就有了,現在 2.5 Pro 也加入了這個功能。開發者可以控制模型在回應前,要用多少 token 來進行思考,甚至可以把思考能力關掉,這樣就能更好地去平衡回應速度、品質跟成本。

Speaker 2: {{恍然大悟}} 哦~我懂了!就是可以自己調整,看是要讓 AI「深思熟慮」一點,還是要「快問快答」嘛!

Speaker 1: {{點頭}} 差不多是這個意思!另外,Gemini API 和 SDK 現在也原生支援 MCP 工具定義,這樣要整合一些開源工具就會更方便了。

Speaker 2: 哇~今天聽下來,Gemini 2.5 這次的更新真的是誠意滿滿耶!從模型本身的能力提升,到更自然的互動方式,再到對開發者的友善設計,感覺 Google 真的是卯足全力在拚 AI 這塊。

Speaker 1: 對啊!可以感覺到他們一直在創新,也在聽取使用者的回饋。好期待這些新功能之後實際應用在我們的生活中,一定會讓我們的生活更方便、更有趣!

Speaker 2: 沒錯!那今天我們就先聊到這邊。各位聽眾朋友如果對 Gemini 的新功能有什麼想法,或是已經開始玩新的 2.5 Flash 了,都歡迎留言跟我們分享喔!

Speaker 1: {{愉快}} 掰掰~下次見囉!

Speaker 2: 掰掰!

迷之音:那這樣以後我們做 Podcast,是不是可以請 Gemini 來當嘉賓,直接生成雙人對話了?{{開玩笑語氣}} -> 現在就是了 😆


生成 Podcast 語音

來到 " Google AI Studio > Gemini speech generation " 介面。

將剛剛生成的逐字稿貼到 "Raw structure" 區塊後,可以在開頭設定 "Style instructions",使其產生的語音更符合我們的情境或要求,例如跟它說這是 Podcast 對話、主持人是台灣人、提醒它 {{}} 內容為風格、語氣或情感描述,不要唸出來…等等。

* 中文也可以,只是我想說它英文應該更能了解,就使用英文 prompt 了。


以下是我加上的 Style instructions:

The following in a podcast interview style.
The speakers all use Taiwanese Chinese accents.
`{{}}` is a description of style, tone, or emotion and should not be pronounced aloud.
生成 Podcast 語音
生成 Podcast 語音

依據逐字稿長度不同,稍等幾分鐘,完成後會顯示在左下角,可以點擊聆聽或下載。

* 以上個小節的 "生成逐字稿結果 範例" 的逐字稿長度,它生成的中文總語音長度約為 8 分鐘。

成果範例

我試了幾種語言,各位可以自己試聽看看~


🎙️中文 Podcast (非官方支援語言,以上教學示範的成果)

* 語音風格選的是 Achernar 和 Rasalgethi。


🎙️英文 Podcast (官方支援語言)

* 語音風格選的是 Sulafat 和 Lapetus


🎙️日文 Podcast (官方支援語言)

* 語音風格選的是 Zephyr 和 Puck。


🎙️韓文 Podcast (官方支援語言)

* 語音風格選的是 Aoede 和 Achird。


結語

可惜中文聽起來跟 NotebookLM 還有點差距,感覺以上的 prompt 還可以再做調整,而且官方寫目前還沒支援中文,可能就是中文的效果還沒到很理想 (有時候還會有老外講中文的口音 XD),另外目前也還是 Preview 版本,正式上線後應該會再更好。

但相比 NotebookLM,此方法可以有更高的自由度、主控權,例如調整每一句要講什麼內容、Podcast 整體長度、細節語氣變化、口音、速度…等等。
而且能達成的成果也算不錯了,跟以前死板的機器人語音有很大的不同~


有關更多介紹與 API 的使用,可參考官方文章: Gemini API docs - Speech generation (Text-to-speech)


迷之音:未來被 AI 統治,會不會人類被 AI 反過來強迫錄製 Podcast (誤



如果對於 生成式 AI 有興趣的讀者,記得追蹤『 IT空間 』FB 粉專,才不會錯過最新的發文通知呦~🔔




參考:
An upgraded dev experience in Google AI Studio
Gemini API docs - Speech generation (Text-to-speech)


要是我不打起精神的話,誰都不會為我的人生負責啊!

—— IU (李知恩)


🔻 如果覺得喜歡,歡迎在下方獎勵我 5 個讚~
分享

Jia
作者
Jia
軟體工程師 - Software Engineer