Google AI Studio 插入 YouTube 影片如何降低 token、加快速度？

前言

在之前的文章中，我們看到在 Google AI Studio 的對話裡可插入 YouTube 影片，請 Gemini 幫我們節錄逐字稿或整理重點，最厲害的是，它真的可以「看」到影像、「聽」到聲音。

但有時候遇到影片長度太長 (大約一個小時以上)，例如長時間的演講、課程影片，會導致總 token 數太多，超過模型可以輸入的大小 (Input token limit)，那有什麼辦法可以解決嗎？

有的！！
後來我發現 Google AI Studio (和 Gemini API) 針對影片檔案有更新，多了幾項設定 ( 官方文件 )，變的更好用了~

Google AI Studio 上你可以設定 "Media Resolution (媒體解析度)"、"開始時間 & 結束時間" 與 "FPS (frames per second)"：

Media Resolution (媒體解析度)：畫面解低度假如設定 Medium (或預設)，則每個影格會產生 258 個 token；設定 Low，則每個影格會降低為 66 個 token。低解析度可以比較省 token，但也會導致丟失細節。
FPS (frames per second)：代表每秒幀數，預設每秒取樣 1 個影格。如果影片很長或大多靜態畫面 (例如演講)，建議將 FPS 設為低於 1；相反，如果想擷取畫面變化快速的影像細節，建議設定較高的 FPS 值。
開始時間 & 結束時間：假如你只需要辨識影片其中一段，可以設定時間範圍，如此不會有不必要的 token 用量、速度也會比較快。

以這部影片為例，影片長度大約 1 小時 24 分鐘，預設插入後總長度為 1,492,977 tokens，明顯超過模型輸入上限 (1,048,576 tokens)。

我們來嘗試種縮短 token 的方式：

在 Gemini 中每秒影片 token 計算方式如下：

影像：(預設以 1 FPS 取樣) 每個影格 258 個 token (如果 Media Resolution 設為 Low，每個影格降為 66 個 token)
音訊：每秒 32 個 token
一些中繼資料：(文件沒寫多少 token)
總計：在預設解析度，每秒影片約 300 個 token；Low 解析度，每秒影片約 100 個 token。

假如一定要自己手動計算的話，我自己估出來的公式大約是：

影像：[258 (Medium) + 5 (中繼資料)] x 秒數 x FPS
音訊：[32 + 1 (中繼資料)] x 秒數

* 不知道中繼資料為多少，我自己大概估個數。

我們可以來實際自己計算一下，看看跟網站上的是不是差不多。

預設都不調整：

網站顯示：102,658 tokens

手動計算：影像 (258 + 5) x 347 秒 x 1 FPS + 音訊 (32 + 1) x 347 秒 = 91,261 + 11,451
= 102,712 tokens

調整以 0.2 FPS 取樣：

網站顯示：29,544 tokens

手動計算：影像 (258 + 5) x 347 秒 x 0.2 FPS + 音訊 (32 + 1) x 347 秒 = 18,252 + 11,451
= 29,703 tokens

調整以 3 FPS 取樣：

網站顯示：285,706 tokens

手動計算：影像 (258 + 5) x 347 秒 x 3 FPS + 音訊 (32 + 1) x 347 秒 = 273,783 + 11,451
= 285,234 tokens

降低 “Media Resolution (媒體解析度)” 為 LOW：

網站顯示：35,842 tokens

手動計算：影像 (66 + 5) x 347 秒 x 1 FPS + 音訊 (32 + 1) x 347 秒 = 24,637 + 11,451
= 36,088 tokens

降低 “Media Resolution (媒體解析度)” 為 LOW，和調整以 5 FPS 取樣：：

網站顯示：134,674 tokens

手動計算：影像 (66 + 5) x 347 秒 x 5 FPS + 音訊 (32 + 1) x 347 秒 = 123,185 + 11,451
= 134,636 tokens

可以看出來，實際 token 數與我計算出來算蠻接近的，當然這只是大致的估算。

藉由以上這三種方式，可以大幅降低 token 總數，除了讓長影片能輸入進去模型之外，也因為 token 較少，可以加快速度、節省花費。

現在 Google AI Studio (和 Gemini API) 在插入影片 (包含 YouTube) 加入了這些參數設定，在使用上更加方便、靈活。

在需要將長時間的演講轉出逐字稿就非常方便使用，而且我覺得準確度很高 (Gemini 2.5 Pro)，還有它可以搭配畫面去判斷、擷取資料，例如逐字稿加上講話的人名，非常推薦有類似需求的讀者也可以自己試試~

對生成式 AI 感興趣的讀者，記得追蹤 FB 粉專『 IT空間』，以免錯過最新的發文通知呦~🔔

The greatest contribution we have made to society is that we finally made it possible.
我們最大的貢獻，在於終於讓不可能成為可能。
—— 黃仁勳 (NVIDIA 共同創辦人暨執行長)

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~