請啟用 JavaScript 來查看內容

Google AI Studio 插入 YouTube 影片如何降低 token、加快速度?

    前言

    在之前的文章中,我們看到在 Google AI Studio 的對話裡可插入 YouTube 影片,請 Gemini 幫我們節錄逐字稿或整理重點,最厲害的是,它真的可以「看」到影像、「聽」到聲音。

    延伸閱讀: Google AI Studio 透過圖片影片與 Gemini 聊天


    但有時候遇到影片長度太長 (大約一個小時以上),例如長時間的演講、課程影片,會導致總 token 數太多,超過模型可以輸入的大小 (Input token limit),那有什麼辦法可以解決嗎?

    有的!!
    後來我發現 Google AI Studio (和 Gemini API) 針對影片檔案有更新,多了幾項設定 ( 官方文件 ),變的更好用了~


    Google AI Studio:https://aistudio.google.com/


    Google AI Studio
    Google AI Studio


    影片設定 (包含 YouTube)

    Google AI Studio 上你可以設定 "Media Resolution (媒體解析度)"、"開始時間 & 結束時間" 與 "FPS (frames per second)":

    • Media Resolution (媒體解析度):畫面解低度假如設定 Medium (或預設),則每個影格會產生 258 個 token;設定 Low,則每個影格會降低為 66 個 token。低解析度可以比較省 token,但也會導致丟失細節。
    • FPS (frames per second):代表每秒幀數,預設每秒取樣 1 個影格。如果影片很長或大多靜態畫面 (例如演講),建議將 FPS 設為低於 1;相反,如果想擷取畫面變化快速的影像細節,建議設定較高的 FPS 值。
    • 開始時間 & 結束時間:假如你只需要辨識影片其中一段,可以設定時間範圍,如此不會有不必要的 token 用量、速度也會比較快。

    這部影片 為例,影片長度大約 1 小時 24 分鐘,預設插入後總長度為 1,492,977 tokens,明顯超過模型輸入上限 (1,048,576 tokens)。

    長度大約 1 小時 24 分鐘的影片,其總長度為 1,492,977 tokens
    長度大約 1 小時 24 分鐘的影片,其總長度為 1,492,977 tokens

    我們來嘗試種縮短 token 的方式:

    1. 降低 “Media Resolution (媒體解析度)":設定為 LOW 後,影片 token 總數降為 521,265。
    2. 降低 “FPS (frames per second)":(預設為 1 FPS) 降低成 0.5 FPS,影片 token 總數降為 827,587。
    3. 或者如果只需要片段影片,可以設定 "開始時間 & 結束時間"。
    降低 "Media Resolution (媒體解析度)"
    降低 "Media Resolution (媒體解析度)"
    降低 "FPS (frames per second)"
    降低 "FPS (frames per second)"

    手動計算影片 token 數量

    在 Gemini 中每秒影片 token 計算方式如下:

    • 影像:(預設以 1 FPS 取樣) 每個影格 258 個 token (如果 Media Resolution 設為 Low,每個影格降為 66 個 token)
    • 音訊:每秒 32 個 token
    • 一些中繼資料:(文件沒寫多少 token)
    • 總計:在預設解析度,每秒影片約 300 個 token;Low 解析度,每秒影片約 100 個 token。

    假如一定要自己手動計算的話,我自己估出來的公式大約是:

    影像:[258 (Medium) + 5 (中繼資料)] x 秒數 x FPS
    音訊:[32 + 1 (中繼資料)] x 秒數
    

    * 不知道中繼資料為多少,我自己大概估個數。


    我們可以來實際自己計算一下,看看跟網站上的是不是差不多。

    例如這部長度 5:47 的影片:https://www.youtube.com/watch?v=eJFJRyXEHZ0


    預設都不調整:

    網站顯示:102,658 tokens
    
    手動計算:影像 (258 + 5) x 347 秒 x 1 FPS + 音訊 (32 + 1) x 347 秒 = 91,261 + 11,451
    = 102,712 tokens
    

    調整以 0.2 FPS 取樣:

    網站顯示:29,544 tokens
    
    手動計算:影像 (258 + 5) x 347 秒 x 0.2 FPS + 音訊 (32 + 1) x 347 秒 = 18,252 + 11,451
    = 29,703 tokens
    

    調整以 3 FPS 取樣:

    網站顯示:285,706 tokens
    
    手動計算:影像 (258 + 5) x 347 秒 x 3 FPS + 音訊 (32 + 1) x 347 秒 = 273,783 + 11,451
    = 285,234 tokens
    

    降低 “Media Resolution (媒體解析度)” 為 LOW

    網站顯示:35,842 tokens
    
    手動計算:影像 (66 + 5) x 347 秒 x 1 FPS + 音訊 (32 + 1) x 347 秒 = 24,637 + 11,451
    = 36,088 tokens
    

    降低 “Media Resolution (媒體解析度)” 為 LOW,和調整以 5 FPS 取樣::

    網站顯示:134,674 tokens
    
    手動計算:影像 (66 + 5) x 347 秒 x 5 FPS + 音訊 (32 + 1) x 347 秒 = 123,185 + 11,451
    = 134,636 tokens
    


    可以看出來,實際 token 數與我計算出來算蠻接近的,當然這只是大致的估算。



    結語

    藉由以上這三種方式,可以大幅降低 token 總數,除了讓長影片能輸入進去模型之外,也因為 token 較少,可以加快速度、節省花費。


    現在 Google AI Studio (和 Gemini API) 在插入影片 (包含 YouTube) 加入了這些參數設定,在使用上更加方便、靈活。

    在需要將長時間的演講轉出逐字稿就非常方便使用,而且我覺得準確度很高 (Gemini 2.5 Pro),還有它可以搭配畫面去判斷、擷取資料,例如逐字稿加上講話的人名,非常推薦有類似需求的讀者也可以自己試試~


    對生成式 AI 感興趣的讀者,記得追蹤 FB 粉專『 IT空間 』,以免錯過最新的發文通知呦~🔔




    參考:
    Google AI Studio
    Google AI Studio 透過圖片影片與 Gemini 聊天 | IT 空間
    Video understanding | Google AI for Developers


    The greatest contribution we have made to society is that we finally made it possible.
    我們最大的貢獻,在於終於讓不可能成為可能。

    —— 黃仁勳 (NVIDIA 共同創辦人暨執行長)


    🔻 如果覺得喜歡,歡迎在下方獎勵我 5 個讚~
    分享

    Jia
    作者
    Jia
    軟體工程師 - Software Engineer