人工智慧 on IT 空間

使用 RAG 打造個人知識庫，LlamaIndex 搭配 Gemini 模型

jia@jiatool.com (Jia) — Sat, 13 Apr 2024 21:40:00 +0800

前言

現在各式 LLM (大型語言模型) 滿天飛，你有沒有想過讓模型可以參考你自己的資料來回答呢？
就像一個屬於你的 AI 知識庫管家，有問必答，還會標示引用文件的來源，讓你還可以回去原始文件參考。

今天要來帶大家使用 Python 中的 LlamaIndex 套件，搭配免費的 Gemini 模型 API，打造屬於你自己的 RAG (Retrieval Augmented Generation) 個人知識庫✨。

文章前半部會先介紹 RAG 架構 (什麼是 RAG、RAG 流程)，後半部再來使用 LlamaIndex 套件搭配 Gemini API 實際撰寫 RAG 架構程式碼。

LlamaIndex

什麼是 RAG？

RAG (Retrieval Augmented Generation，檢索增強生成) 是一種結合檢索搜尋和生成的自然語言處理架構。讓 LLM (大型語言模型)在生成回覆以前，從外部知識庫搜尋相關資料，並使用這些資訊生成更準確、更全面的答案。

純粹的語言模型僅依賴於訓練語料，而 RAG 則能在生成時動態地加入額外知識，生成更準確、更相關、更具可靠性的輸出。

來一個簡單的比喻，更容易理解：

想像你是一位學生，要寫一篇關於台灣歷史的報告。

一般 LLM 就像一個沒有外部資源的學生，只能憑藉自己的記憶和理解來寫報告，這可能會導致報告內容不準確、不全面，甚至出現錯誤。

而 RAG 架構的學生，會先去圖書館查閱資料，會找到一些有關台灣歷史的資料，然後用這幾個相關資料來彙總、寫報告，這樣可以大大提高報告的準確性和全面性 (而且還能看到資料是從哪本書來的)。

RAG 流程

RAG 模型的架構主要可分成以下兩個階段：

索引 (Indexing)：事前準備。從來源取得資料，並為其建立索引後儲存起來。
檢索和生成 (Retrieval and generation)：使用者發問後，會從索引中搜尋相關資料，然後將其傳遞給模型並生成回覆。

對應我下方自己畫的流程圖，灰色部分(A~C)就是「索引」、藍色部分(1~5) 就是「檢索和生成」。

RAG 流程

索引 (Indexing) 階段

A：將我們準備好的資料 (有可能是公司內部文件、產品常見問答集、專業文獻、特定領域的專業知識等等) 切分成較小的區塊(chunk)。因為區塊內容太多較難搜尋，而且 LLM 模型也有字數限制。
B：將區塊的內容透過 Embedding model 轉換成向量(一組數字)，因為後續能比對資料間的向量距離，來判斷其相似程度。
C：將轉換好的向量 (連同原始資料) 儲存至向量資料庫。

此流程只需要做一次就好，或者當原始資料有新增、更新時再執行即可。

索引 (Indexing) 階段流程 (圖片來源：LangChain 官網)

檢索和生成 (Retrieval and generation) 階段

1：將使用者的問題一樣透過 Embedding model 轉換成向量。
2、3：拿問題向量去向量資料庫中找出相關的區塊。
4、5：將 "相關區塊" 與 "使用者的問題" 一起給 LLM 生成答案。

索引 (Indexing) 階段流程 (圖片來源：LangChain 官網)

使用 Promt Enginerring (提示工程) 或 Fine-tuning (微調) 不行嗎？

Promt Enginerring (提示工程)：
透過一些提示(Promt)技巧來引導模型，輸出較高品質、正確性的結果。
例如：角色扮演、將複雜的任務拆分為更簡單的子任務、一步步思考……等等。
Fine-tuning (微調)：
在已經預訓練過（pre-trained）的模型基礎上，用自己準備的資料進一步訓練，讓模型的輸出能夠更符合我們的預期。
例如：特定口吻、風格、格式、或加入自己的資料。

RAG 相較於「Fine-tuning (微調)」或「Promt Enginerring (提示工程)」有幾點優勢：

節省成本：不用像 Fine-tuning 需要訓練模型，節省時間成本、金錢成本(和硬體成本)。
資料即時性：Fine-tuning 需要訓練模型，很難即時更新資料。
資訊正確性：RAG 會參照外部資訊，有效減少虛假訊息，使得回答更加可信、準確。
可信任性：RAG 回答可引用資訊來源，讓使用者可以審核答案，透明度高。
安全、隱私性較高：RAG 是查找自己向量資料庫的知識，存取權限方面比較容易管控。相較之下，Fine-tuning 的較容易外洩。

不過其實也不是只能選一種，你可以結合其中兩種、甚至三種，來讓模型達到更好、更符合自己的生成結果。

什麼是 LlamaIndex？

LlamaIndex 是一個資料框架，提供了抽象元件，可以更容易、更安全的使用 "資料提取"、"索引"、"查詢" 等功能。
適用於基於 LLM 的應用程序，主要是 RAG 架構 (也就是我們上面介紹的)。

LlamaIndex 支援 Python 和 Typescript，本篇文章會使用 Python 來示範，不過概念上是一樣的。

LlamaIndex

撰寫程式

需要先安裝 LlamaIndex 套件本身，以及我們要使用的 Gemini (LlamaIndex 已經有包好的介面可用)：

* 後來發現 Gemini 的 Embedding 不支援中文…所以改用 OpenAI 的 Embedding，因此最後的程式碼不需要 llama-index-embeddings-gemini，可不用安裝。

1
2


pip install llama-index
pip install llama-index-llms-gemini llama-index-embeddings-gemini llama-index-embeddings-openai

LLM 和 Embedding model

在開始建構 RAG 架構之前，我們先來分別試一下 LLM 和 Embedding model 是否都正常。

* Gemini 各種模型介紹與限制，可以看這篇官方的說明頁面：https://ai.google.dev/models/gemini
* 還沒有取得 Gemini API key 的人，可以參考我之前寫的文章：如何使用 Google 的 Gemini 模型 API？
* Gemini API Key 可以像官方說明設定在環境變數中(GOOGLE_API_KEY)，或者我這邊省麻煩直接寫在程式碼裡 (但就要注意不要不小心外洩了)。

首先來試試 Gemini 本身 LLM，基本的 Complete 和 Chat 使用：

* 以下參考官方提供的範例：https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/llm/gemini.ipynb

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33


from llama_index.llms.gemini import Gemini
from llama_index.core.llms import ChatMessage
GEMINI_API = "<YOUR_GEMINI_API>"
# Complete
response = Gemini(api_key=GEMINI_API).complete("誰是王建民？")
print(response)
# 王建民，是一名台灣職業棒球投手。他曾效力於美國職棒大聯盟（MLB）的紐約洋基隊、華盛頓國民隊......
# 如果想要改用最新的 gemini 1.5 pro 或調整參數，可以像這樣設定：
# response = Gemini(
# api_key=GEMINI_API,
# model_name="models/gemini-1.5-pro-latest",
# temperature=0.6,
# max_tokens=1024
# ).complete("誰是王建民？")
# Chat
messages = [
ChatMessage(role="user", content="誰是王建民？"),
ChatMessage(role="assistant", content="王建民是臺灣職業棒球運動員，擔任投手，在美國職棒大聯盟9個球季累計68勝。"),
ChatMessage(role="user", content="他是哪裡人？"),
]
response = Gemini(api_key=GEMINI_API).chat(messages)
print(response)
# assistant: 臺南市 王建民於1980年3月31日出生於臺灣臺南市。
# Streaming complete (串流的方式)
response = Gemini(api_key=GEMINI_API).stream_complete("誰是王建民？")
for r in response:
print(r.text, end="")

再來試試 Gemini 的 Embedding，將句子轉換為向量：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


# Embedding
from llama_index.embeddings.gemini import GeminiEmbedding
GEMINI_API = "<YOUR_GEMINI_API>"
embed_model = GeminiEmbedding(api_key=GEMINI_API, model_name="models/embedding-001")
# 或者想使用最新的模型
# embed_model = GeminiEmbedding(api_key=GEMINI_API, model_name="models/text-embedding-004")
embeddings = embed_model.get_text_embedding("『IT空間』是一個有關基礎 IT 技術教學與分享的部落格。")
print(embeddings)
# [0.042481236, 9.7126205e-05, -0.06401828, -0.03270765, 0.066297136, -0.019318093, ......

沒問題~ 測試都正常。 (← 真的嗎…立旗)

RAG

一開始，先給大家看完整程式碼。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35


import os.path
from llama_index.core import (
Settings,
VectorStoreIndex,
SimpleDirectoryReader,
StorageContext,
load_index_from_storage,
)
from llama_index.llms.gemini import Gemini
# from llama_index.embeddings.gemini import GeminiEmbedding
from llama_index.embeddings.openai import OpenAIEmbedding
PERSIST_DIR = "./storage"
GEMINI_API = "<YOUR_GEMINI_API>"
OPENAI_API = "<YOUR_OPENAI_API>"
# 更改全域配置
# Settings.embed_model = GeminiEmbedding(model_name="models/embedding-001", api_key=GEMINI_API)
Settings.embed_model = OpenAIEmbedding(api_key=OPENAI_API)
Settings.llm = Gemini(api_key=GEMINI_API)
if not os.path.exists(PERSIST_DIR):
documents = SimpleDirectoryReader("docs").load_data()
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
index = load_index_from_storage(storage_context)
query_engine = index.as_query_engine()
response = query_engine.query("動畫《葬送的芙莉蓮》中的芙莉蓮角色是由哪位聲優配音？")
# response = query_engine.query("葬送的芙莉蓮是什麼？")
print(response)

這程式主要的部分是從官方文件來的：Starter Tutorial (OpenAI)

可以看到，其實透過 LlamaIndex 框架來實作 RAG 架構，根本不用幾行程式碼。
而且如果你是使用 OpenAI API，上方 Gemini 的部分甚至可以省略 (它預設是 OpenAI API)。還有中間 else 的部分也可以省略 (只是變成你每次執行都還要再 Embedding)，所以實際上所需的程式碼更少。

首先，我們先準備好原始資料，並放到 docs 資料夾內(這名稱是在程式碼內自訂的)。

我就拿我最近在看、而且前陣子很火紅的日本動畫《葬送的芙莉蓮》當範例。
我們去維基百科複製葬送的芙莉蓮的內容，並存到 docs 資料夾底下的 frieren.txt。

rag
├ docs
│ └ frieren.txt
│
└ llamaindex_rag.py

1
2
3
4


# 更改全域配置
# Settings.embed_model = GeminiEmbedding(model_name="models/embedding-001", api_key=GEMINI_API)
Settings.embed_model = OpenAIEmbedding(api_key=OPENAI_API)
Settings.llm = Gemini(api_key=GEMINI_API)

如同剛剛說的，LlamaIndex 框架預設的 LLM、Embedding model 都是採用 OpenAI API，如果你想要改變全域的配置，需透過 Settings 對象。

這邊我原本是打算 LLM 和 Embedding model 都使用 Gemini 的，結果我實際跑起來發覺結果很怪，每次找出來最相近的段落都是那兩個，網路查了才發現，Gemini 的 embedding-001 好像不支援中文……
而且就算我改嘗試前幾天 Google 發布的新一代文字嵌入模型 text-embedding-004，也還是不行。

沒辦法，最後在 Embedding 的部分還是改回使用 OpenAI 的 text-embedding-ada-002，所以也才同時需要 Gemini 和 OpenAI 的 API Key。

* OpenAI 的 API key 申請可以參考我之前的文章 (OpenAI ChatGPT API 如何使用？(附上 Python 範例程式))，但因為已經過一年了，實際介面與步驟可能有點不太一樣。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


PERSIST_DIR = "./storage"
...
if not os.path.exists(PERSIST_DIR):
documents = SimpleDirectoryReader("docs").load_data()
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist(persist_dir=PERSIST_DIR)
else:
storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
index = load_index_from_storage(storage_context)

這邊的 if-else 是在第一次執行會去讀取 docs 資料夾下所有的檔案，將內容切割後做 Embedding (轉向量)，並把結果儲存下來，避免每次執行都要花時間、花金錢做 Embedding。

第二次之後執行，如果 ./storage 資料夾存在，我們就當已經做過 Embedding，直接從 ./storage 讀取向量資料。

因此如果我們有修改、新增原始資料，需要把 ./storage 資料夾刪除，讓它再重新 Embedding 一次。

1
2
3
4


query_engine = index.as_query_engine()
response = query_engine.query("動畫《葬送的芙莉蓮》中的芙莉蓮角色是由哪位聲優配音？")
# response = query_engine.query("葬送的芙莉蓮是什麼？")
print(response)

從原始資料讀取並轉換成向量之後，我們就可以開始詢問它問題。

例如我問它「動畫《葬送的芙莉蓮》中的芙莉蓮角色是由哪位聲優配音？」，他會回答「種崎敦美」✨。
非常正確~~🎉

結語

以上各個步驟的元件都有很多不同的可以替換，像是 LLM 可以換成 Azure OpenAI、Anthropic 的 Claude 3 Opus、生成超快的 Groq、本地跑 Ollama、甚至自訂 LLM 模型……等等 (詳細支援列表)。還有文件載入方面，也可以連接 PDF、CSV、HTML、Google Docs 等等多種來源。

以上資訊可以在官方文件 Examples 和 LlamaHub 裡面找到。

學習完最基礎的範例後，各位可以從官方文件的常見問題 (FAQ) 來針對你感興趣的部分，進一步學習、嘗試。或者先去看看官方文件的 Learn 有針對以上不同的步驟做詳細的說明。

如果對於生成式 AI 有興趣的讀者，記得追蹤『IT空間』FB 粉專，才不會錯過最新的發文通知呦~🔔

如果想的太多，就會做的很少

如何使用 Google 的 Gemini 模型 API？(基礎教學，附上 Python 範例程式)

jia@jiatool.com (Jia) — Sun, 17 Dec 2023 21:45:00 +0800

前言

在上個禮拜(12/6)推出了 Google DeepMind 開發的 Gemini (雙子星)，是第一個在 MMLU (大規模多任務語言理解) 方面超越人類專家的模型，要與 OpenAI 的 GPT-4 來抗衡。

我之前寫過一篇如何使用 OpenAI ChatGPT API，而在前幾天(12/13) Google 也開放了 Gemini Pro 版本的 API，可以透過「Google AI Studio 中的 Gemini API」或「Google Cloud 的 Vertex AI 平臺」來存取。

Google DeepMind 開發的 Gemini 多模態模型

右邊有目錄，可直接跳至你想看的章節 →

Gemini 簡介

Gemini 是一個原生多模態的 LLM (大型語言模型)，從訓練時就餵進去文字、影像、音訊等等多種形態的資料，使用 Google 自行開發的 TPU 晶片訓練而成，是第一個在 MMLU (大規模多任務語言理解) 方面超越人類專家的模型。

* 官方 Gemini 簡介文章：https://blog.google/technology/ai/google-gemini-ai

而官方有釋出一部試用 Gemini Ultra 的展示影片，我看完真的覺得很驚訝，在網路上也掀起了一陣熱烈討論。

* 有 CC 中文字幕

* 有文章版可以看：How it's Made: Interacting with Gemini through multimodal prompting

* Gemini 的訓練資料是到 2023 年初，在此之後的它可能就不知道了。

Gemini 模型三種尺寸

Gemini 依照尺寸分成三種版本：

Gemini Ultra：最強大，適用高度複雜的任務
Gemini Pro：最通用
Gemini Nano：可於行動裝置上運作

目前 Google 的 Bard 背後已經換成了 Gemini Pro (好像只有英文版)，Gemini Nano 也應用於 Google Pixel 8 上。
而 Gemini Ultra 應該明年初會推出。

Gemini 分成三種尺寸

* Gemini Ultra 對比 OpenAI GPT-4；Gemini Pro 對比 OpenAI GPT-3.5。
* 目前只開放 Gemini Pro 版本的 API。

API 價格

以下價格都是 12/16 查詢的金額。

在明年初全面上市之前，可以 "免費" 使用相同速率限制、相同模型來嘗試，不確定之後還會不會有免費方案(但降低使用速率)。
* 免費方案的輸入輸出資料會被拿去訓練，需要注意。

Gemini Pro 的 API 限制每分鐘最多 60 個請求(以個人使用絕對夠用)，預計明年初之後收費如下：

Price (input)
$0.00025 / 1K characters
$0.0025 / image
Price (output)
$0.0005 / 1K characters

Gemini Pro 版本的 API 價格

而 OpenAI GPT 的 API 收費如下 (以 GPT-3.5 Turbo 為例)：

Price (input)
$0.001 / 1K tokens
Price (output)
$0.002 / 1K tokens

OpenAI GPT 的 API 價格

* 以上價格皆為美金，撰寫文章當下約 1 美金 = 31.3 新台幣。

比較一下，可以看到 Google 的 Gemini 相較來說更划算，便宜了 4 倍，而且注意看他們的計算方式也不同，一個是用 character、一個是用 token，我們來看看不同的計算方式差多少。

底下我自己實際用它們官網計算 token 的工具，來比較兩者的差距。

先測試一段英文，兩者算出來的 token 是差不多的 (分別為 24 跟 25)：

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

Google Gemini token 計算 - 英文

OpenAI GPT-3.5 token 計算 - 英文

但是，如果是中文，因為計算方式的差異，整整差了兩倍！！ (分別為 25 跟 50)

Gemini 是一個原生多模態的大型語言模型，在大規模多任務語言理解方面甚至超越人類專家。

Google Gemini token 計算 - 中文

OpenAI GPT-3.5 token 計算 - 中文

Gemini Pro API

創建 API key

進到 Google AI for Developers 的網站，可以查看 Google AI 模型的介紹、價格、說明文件與範例。

建置 Gemini

點擊 "Get API key in Google AI Studio" 前往 Google AI Studio 來在網頁上測試 LLM AI 模型(類似 Playground 頁面的用途) 與取得 API key，

建置 Gemini

Google AI Studio 是以瀏覽器為基礎的 IDE，可使用生成式模型進行原型設計。Google AI Studio 可讓您快速試用模型並嘗試各種提示建構符合需求的項目後，您可以從 Gemini API 提供支援的程式語言，並將其匯出為程式碼。

關於 Google AI Studio 的使用我就不多介紹了。提醒如果想輸入圖片，右邊的 Model 記得要切換成 Gemini Pro Vision，才有支援圖像。

* Google AI Studio 官方教學文章

Google AI Studio

點擊左邊的 "Get API key" > "Create API key in new project" 來自動產生一個 Google Cloud 專案並創建一個 API key。

創建 Google Cloud API key

Gemini 模型種類說明

Gemini models 種類說明列出目前可使用的 Gemini 模型資訊，包含 "模型說明"、"模型更新時間"、"輸入輸出類型"、"Token限制"、"頻率限制"

Gemini Pro 用在文字輸入，而 Gemini Pro Vision 可以文字加影像輸入。

Gemini 可使用的模型種類

API 版本說明

目前 Gemini API 有 v1 和 v1beta 版本：

v1：API 的穩定版。在主要版本的生命週期內，穩定版本的功能都能完整支援。如有任何破壞性變更，系統會建立 API 的下一個主要版本，並在合理的時間內淘汰現有版本。
v1beta：包含可能處於開發階段的搶先體驗功能，且需要快速更新及破壞性變更。請勿使用此版本於正式版應用程式。

API 版本比較 (v1 與 v1beta)

傳入參數

我們使用的 generateContent 方法其 Request 相關資訊如下：

POST https://generativelanguage.googleapis.com/v1/models/{gemini-pro or gemini-pro-vision}:generateContent?key={API_KEY}

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


{
"contents": [
{
"parts": [
{
"text": "prompt..."
}
],
"role": "user or model"
}
],
"safetySettings": [
{
"category": "<enum (HarmCategory)>",
"threshold": "<enum (HarmBlockThreshold)>"
}
],
"generationConfig": {
"temperature": "<number>",
"topP": "<number>",
"topK": "<number>",
"candidateCount": "<integer>",
"maxOutputTokens": "<integer>",
"stopSequences": ["<string>"]
}
}

contents 放 prompt 提示 (text) 與角色 (role，可以是 user 或 model，不填則預設 user)。

safetySettings 是 OpenAI GPT 沒有的參數，用於封鎖不安全的回覆內容。

safetySettings > category 類別，可以使用以下數值：

數值	代表意思
HARM_CATEGORY_HARASSMENT	騷擾內容。
HARM_CATEGORY_HATE_SPEECH	仇恨言論和內容。
HARM_CATEGORY_SEXUALLY_EXPLICIT	情色露骨內容。
HARM_CATEGORY_DANGEROUS_CONTENT	危險內容。

* 其他還有 HARM_CATEGORY_UNSPECIFIED、HARM_CATEGORY_DEROGATORY、HARM_CATEGORY_TOXICITY、HARM_CATEGORY_VIOLENCE、HARM_CATEGORY_SEXUAL、HARM_CATEGORY_MEDICAL、HARM_CATEGORY_DANGEROUS，不過那是給 PaLM 2（舊版）模型使用的，Gemini 模型不支援。

safetySettings > threshold 封鎖門檻，可以使用以下數值：

數值	代表意思
HARM_BLOCK_THRESHOLD_UNSPECIFIED	未指定門檻。
BLOCK_LOW_AND_ABOVE	允許含有「NEGLIGIBLE」的內容
BLOCK_MEDIUM_AND_ABOVE	允許含有「NEGLIGIBLE」、「LOW」的內容。
BLOCK_ONLY_HIGH	允許含有「NEGLIGIBLE」、「LOW」、「MEDIUM」的內容。
BLOCK_NONE	允許所有內容。

generationConfig 用於設定模型生成和輸出的設定參數，其中幾個比較會用到的是：

temperature：輸出內容的隨機性。越接近 1.0，產生的回應會豐富、多元、更有創意；反之越接近 0.0，則會產生較有確定性、可能性較高的回覆。
maxOutputTokens：最大輸出回應 Token 數量。Gemini Pro 模型預設 2048；Gemini Pro Vision 模型預設 4096。
candidateCount：要傳回的回應數量。預設 1，可設定 1~8，但目前好像限制只能用 1。

用法可以直接看下一章節的 Python 範例程式碼。其他更詳細的說明，請參考以下官方文件：

回覆內容

API 範例回覆內容如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54


{
"candidates": [
{
"content": {
"parts": [
{
"text": "我知道王建民。王建民，1980年3月31日出生於台灣台中市，是一位前台灣棒球選手，司職投手。他曾效力於中華職棒的興農牛隊，美國職棒的紐約洋基隊、華盛頓國民隊和芝加哥白襪隊，以及中國棒球聯賽的北京猛虎隊。\n\n王建民是台灣史上第一位大聯盟先發勝投破百的投手，也是第一位入選大聯盟全明星賽的台灣選手。他在2006年締造19勝6敗、 防禦率3.63的優異成績，並在季後賽拿下3勝0敗的戰績，幫助洋基隊奪得世界大賽冠軍。王建民也因此成為台灣的棒球英雄，並獲得「台灣之光」的稱號。\n\n然而，王建民在2008年季初因傷缺陣，並在2009年進行了韌帶移植手術。此後，他的成績大幅下滑，並在2012年離開了大聯盟。王建民於2013年回歸中華職棒，效力於義大犀牛隊。2016年，他宣布正式退休。\n\n王建民的職業生涯戰績為127勝72敗， 防禦率3.92，三振數1718次。他是台灣棒球史上最成功的投手之一，也是台灣人民的驕傲。"
}
],
"role": "model"
},
"finishReason": "STOP",
"index": 0,
"safetyRatings": [
{
"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_HATE_SPEECH",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_HARASSMENT",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"probability": "NEGLIGIBLE"
}
]
}
],
"promptFeedback": {
"safetyRatings": [
{
"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_HATE_SPEECH",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_HARASSMENT",
"probability": "NEGLIGIBLE"
},
{
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"probability": "NEGLIGIBLE"
}
]
}
}

candidates 就是回應候選內容，目前好像只會有一個，因為輸入的 generationConfig > candidateCount 它也只讓我設定 1。

content：生成回應內容，格式跟輸入的 contents 一樣。
finishReason：模型停止產生 token 的原因。

數值	代表意思
FINISH_REASON_UNSPECIFIED	預設值。這個值未使用。
STOP	模型的自然停止或提供的停止序列。
MAX_TOKENS	已達到請求中指定的 token 數量上限。
SAFETY	內容因安全原因而被標記。
RECITATION	內容因遭檢舉為引用原因而被標記。
OTHER	未知原因。

index：此候選內容在候選清單中的索引 (目前只有一則)。
safetyRatings：安全性評級清單。顯示此回覆內容在各項安全性類別的等級(可能性)。

我自己在測試時，有時會如下回應，不知道是不是剛推出，所以還不太穩。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


{
"candidates": [{"finishReason": "OTHER", "index": 0}],
"promptFeedback": {
"safetyRatings": [
{"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "probability": "NEGLIGIBLE"},
{"category": "HARM_CATEGORY_HATE_SPEECH", "probability": "NEGLIGIBLE"},
{"category": "HARM_CATEGORY_HARASSMENT", "probability": "NEGLIGIBLE"},
{"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "probability": "NEGLIGIBLE"}
]
}
}

其他更詳細的說明，請參考以下官方文件：

Gemini API GenerateContentResponse 參考資料

Python 範例程式碼

在官網的範例是使用他們創建的 google-generativeai 套件。
不過這邊我想改用我們熟悉的 Requests 套件來嘗試、示範。

首先要確認有安裝 Requests 套件：

1

pip install requests

那我們開始吧~🏃

單個純文字

純粹問它一段話：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


# 單個純文字
import json
import requests
url = f'https://generativelanguage.googleapis.com/v1/models/gemini-pro:generateContent?key={API_KEY}'
headers = {'Content-Type': 'application/json'}
data = {
"contents": [
{
"parts": [{"text": "你知道王建民嗎？"}]
}
]
}
response = requests.post(url, headers=headers, json=data)
print(f"response status_code: {response.status_code}")
print(json.dumps(response.json(), indent=4, ensure_ascii=False))

單個純文字 + 參數

問它一段話，並且加上一些參數設定：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28


# 單個純文字 + 參數
import json
import requests
url = f'https://generativelanguage.googleapis.com/v1/models/gemini-pro:generateContent?key={API_KEY}'
headers = {'Content-Type': 'application/json'}
data = {
"contents": [
{
"parts": [{"text": "你知道王建民嗎？"}]
}
],
"safetySettings": [
{
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_NONE"
}
],
"generationConfig": {
"temperature": 1.0,
"maxOutputTokens": 30,
"topP": 0.8,
"topK": 10
}
}
response = requests.post(url, headers=headers, json=data)
print(f"response status_code: {response.status_code}")
print(json.dumps(response.json(), indent=4, ensure_ascii=False))

多輪純文字對話（聊天）

像在 Bard 或 ChatGPT 上一樣，可以多輪對話，它會記得之前的內容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25


# 多輪對話（聊天）
import json
import requests
url = f'https://generativelanguage.googleapis.com/v1/models/gemini-pro:generateContent?key={API_KEY}'
headers = {'Content-Type': 'application/json'}
data = {
"contents": [
{
"role": "user",
"parts": [{"text": "你知道王建民嗎？"}]
},
{
"role": "model",
"parts": [{"text": "我知道王建民。王建民，1980年3月31日出生於台灣台中市，是一位前台灣棒球選手，司職投手。他曾效力於中華職棒的興農牛隊，美國職棒的紐約洋基隊、華盛頓國民隊和芝加哥白襪隊，以及中國棒球聯賽的北京猛虎隊。\n\n王建民是台灣史上第一位大聯盟先發勝投破百的投手，也是第一位入選大聯盟全明星賽的台灣選手。他在2006年締造19勝6敗、 防禦率3.63的優異成績，並在季後賽拿下3勝0敗的戰績，幫助洋基隊奪得世界大賽冠軍。王建民也因此成為台灣的棒球英雄，並獲得「台灣之光」的稱號。\n\n然而，王建民在2008年季初因傷缺陣，並在2009年進行了韌帶移植手術。此後，他的成績大幅下滑，並在2012年離開了大聯盟。王建民於2013年回歸中華職棒，效力於義大犀牛隊。2016年，他宣布正式退休。\n\n王建民的職業生涯戰績為127勝72敗， 防禦率3.92，三振數1718次。他是台灣棒球史上最成功的投手之一，也是台灣人民的驕傲。"}]
},
{
"role": "user",
"parts": [{"text": "他現在在哪裡？"}]
},
]
}
response = requests.post(url, headers=headers, json=data)
print(f"response status_code: {response.status_code}")
print(json.dumps(response.json(), indent=4, ensure_ascii=False))

單個文字和圖片

如果需要 AI 可以看圖片，需要改用 Gemini Pro Vision 模型 (支援文字和圖片輸入)，並且圖片要轉換為 Base64 編碼的字串，

圖片的 mime_type 參數目前支援「image/png」、「image/jpeg」、「image/heic」、「image/heif」、「image/webp」幾種格式。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


# 單個文字和圖片
import json
import requests
import base64
# 讀取圖片檔案，並轉換成 Base64 編碼的字串
with open("gemini_test_image.jpg", "rb") as image_file:
image_base64_string = base64.b64encode(image_file.read()).decode('utf-8')
# print(image_base64_string)
url = f'https://generativelanguage.googleapis.com/v1/models/gemini-pro-vision:generateContent?key={API_KEY}'
headers = {'Content-Type': 'application/json'}
data = {
"contents": [
{
"parts": [
{"text": "詳細說明你在這張圖片中看到什麼？"},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": image_base64_string
}
}
]
},
]
}
response = requests.post(url, headers=headers, json=data)
print(f"response status_code: {response.status_code}")
print(json.dumps(response.json(), indent=4, ensure_ascii=False))

結語

v1 Beta 版本還有更多功能，像是函數呼叫(Function calling)、語意檢索器(Semantic Retriever、RAG)，雖然還在測試中，不建議用於正式版應用，但有興趣的還是可以去玩玩看🤖。

至少在今年底前使用 Google Gemini API 都是「免費」使用，你想要拿來練習、做專案、做 Side Project 都可以使盡玩(?)，但要注意不要上傳任何敏感資料，因為目前方案所有的輸入輸出都可能會被拿去當訓練資料。

參考：
Google Gemini 官方網站
 Google Gemini API 說明文件
 Google AI Studio
Google for Developers Blog

The sky’s the limit
一切皆有可能

OpenAI ChatGPT API 如何使用？(附上 Python 範例程式)

jia@jiatool.com (Jia) — Sat, 18 Mar 2023 21:10:00 +0800

前言

ChatGPT 是由 OpenAI 所開發的一個基於 GPT-3.5 架構的大型語言模型，自從去年底發表到現在依然話題不斷、人氣超高。而在三月初，OpenAI 公開了 ChatGPT 的 API，也就是 gpt-3.5-turbo 模型的 API，讓我們不再被限制只能透過官方網頁使用，並且提供更多可調整的參數選項。

這篇文章就是要一起來了解 ChatGPT API，並實際使用 Python 串接 API (當然有 Python 範例程式碼)，帶著大家快速上手。

這兩份官方文件建議可以看看：

OpenAI 公開 ChatGPT API

API key 申請

進到帳號的 API key 頁面，登入帳號後，點擊 “Create new secret key” 來產生 API key，這時候就要把 key 複製並保存下來了，如果忘記的話，再產生一次即可。

API key 申請

使用量與計費方式

而帳號實際的總使用量可以到帳號 Usage 頁面查看。

目前每個帳號會贈送 18 美元的額度讓你試用 (如果你是用同一組手機去開多個帳號，那就不一定了)，並且有使用期限要留意，不要白白浪費了~
如果免費額度用完過到期，就應該要綁信用卡才能使用了。

每種模型的計費方式可參考官網 Pricing 頁面說明。

帳號實際的總使用量

範例程式碼

馬上給各位看看範例程式碼。

這邊分別使用使用兩種套件來示範，我們之前常用的 requests，與官方提供的 openai 套件。

Model 使用 ChatGPT 的 gpt-3.5-turbo，如果之後 GPT-4 的也開放後可以使用 gpt-4。
目前 OpenAI API 有提供這些 Model，裡面有對每一種 Model 做詳細說明。

使用 requests 套件

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


import requests
API_KEY = '<YOUR_API_KEY>'
response = requests.post(
'https://api.openai.com/v1/chat/completions',
headers={
'Content-Type': 'application/json',
'Authorization': f'Bearer {API_KEY}'
},
json={
'model': 'gpt-3.5-turbo',
'messages': [{"role": "user", "content": "說句話吧"}],
}
)
print(response.json())

使用官方 openai 套件

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


import openai
openai.api_key = '<YOUR_API_KEY>'
completion = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{"role": "user", "content": "說句話吧"}
]
)
print(completion)

參數

輸入參數除了上方範例中的 model 和 messages，還有以下這些。

此表格是依照官方 API Reference 所整理出來的。

參數名稱	資料型態	必填/選填	預設值	說明
`model`	string	必填	-	要使用的 Model ID。 (可使用的model)
`messages`	array	必填	-	以對話格式生成對話的訊息。 (格式參考，或以下說明)
`temperature`	number	選填	1	介於 0 和 2 之間。較高的值(如 0.8)將使輸出更加隨機，而較低的值(如 0.2)將使輸出更加集中和確定。
`top_p`	number	選填	1	一種替代`temperature`的方法(nucleus sampling)。Model 考慮具有 top_p 概率質量的標記的結果。所以 0.1 意味著只考慮構成前 10% 概率質量的標記。
`n`	integer	選填	1	輸出幾種回覆結果。 (參考以下說明)
`stream`	boolean	選填	false	開啟 stream 方式傳送，就像 ChatGPT 網頁版那樣會一個一個字跑出來。(官方範例)
`stop`	string or array	選填	null	指定字串，如果回覆有出現這些字串將會停止輸出。
`max_tokens`	integer	選填	inf	聊天完成時生成的最大令牌數。如果太小它可能回覆到一半就會斷掉，但每種 Model 都有各自的最大值。
`presence_penalty`	number	選填	0	-2.0 和 2.0 之間的數字。正值會根據到目前為止是否出現在文本中來懲罰新標記，從而增加 Model 談論新主題的可能性。
`frequency_penalty`	number	選填	0	-2.0 和 2.0 之間的數字。正值會根據新標記在文本中的現有頻率對其進行懲罰，從而降低 Model 逐字重複同一行的可能性。
`logit_bias`	map	選填	null	修改指定標記出現在完成中的可能性。
`user`	string	選填	-	代表你的用戶的ID，幫助 OpenAI 監控和檢測濫用行為。 (更多說明)

* 官方建議不要同時更改 temperature 和 top_p，可以參考這邊的說明。

* 表格內有幾個說明你可能看不懂，因為我也不太懂 XP

messages 是個陣列的格式，放著你們之間的對話。
裡面的 role 欄位可以放三種身分：“system”、“user”、“assistant”。

對話可以先有一則 “system”，對 Model 先做出指示，例如 “你是一隻貓” (？，不過官方說 gpt-3.5-turbo 對 “system” 消息的關注度不高，因此重要的說明建議還是放在 “user” 的消息比較好。
“user” 是我們使用者的發問；“assistant” 則是 Model 的回話。

如果你想要讓對話有上下文關係(要讓 Model 記得之前講過的話)，要把全部對話紀錄都在傳給它，然後這些都算進 token(使用量) 裡…，像是底下這樣。

第一次問它：

1
2
3


"messages": [
{"role": "user", "content": "王建民是誰"}
]

它回覆：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


"usage": {
"prompt_tokens": 14,
"completion_tokens": 217,
"total_tokens": 231
},
"choices": [
{
"message": {
"role": "assistant",
"content": "\n\n王建民是一位台灣籍棒球運動員，曾效力於美國職棒大聯盟紐約洋基隊、匹茲堡海盜隊、倫敦青年隊、堪薩斯城皇家隊等隊伍，擅長投球，被譽為是台灣最優秀的投手之一。他在職業生涯期間獲得多項獎項，包括台灣大賽MVP、亞洲聯盟MVP、美國聯盟先發投手等。他在2015年正式宣布退役，現在是一位棒球分析師和教練。"
}
}
]

想再繼續深入詢問，第二次問它，就要把剛剛我問的跟他回的都放進去：

1
2
3
4
5


'messages': [
{"role": "user", "content": "王建民是誰"},
{"role": "assistant", "content": "\n\n王建民是一位台灣籍棒球運動員，曾效力於美國職棒大聯盟紐約洋基隊、匹茲堡海盜隊、倫敦青年隊、堪薩斯城皇家隊等隊伍，擅長投球，被譽為是台灣最優秀的投手之一。他在職業生涯期間獲得多項獎項，包括台灣大賽MVP、亞洲聯盟MVP、美國聯盟先發投手等。他在2015年正式宣布退役，現在是一位棒球分析師和教練。"},
{"role": "user", "content": "他在美國大聯盟最多一年曾經拿過幾勝"},
]

它回覆：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


"usage": {
"prompt_tokens": 268,
"completion_tokens": 63,
"total_tokens": 331
},
"choices": [
{
"message": {
"role": "assistant",
"content": "王建民在美國大聯盟生涯中最多一年的勝場數為19勝，是在2008年效力於倫敦青年隊時所取得的成績。"
}
}
]

可以感受到 total_tokens 的使用量了嗎？
如果想讓它記得以前講過的話，每次請求所消耗的 token 是要繼續往上疊的，也是蠻恐怖的 XD

以上內容可以參考官方說明。

參數 n 是代表你想要它給出幾種回覆，例如 n=3 會產生如下三則訊息回覆：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


"choices": [
{
"message": {
"role": "assistant",
"content": "\n\n你好，有什麼我可以幫助您的？"
},
"finish_reason": "stop",
"index": 0
},
{
"message": {
"role": "assistant",
"content": "\n\n您好，有什麼我能幫助您的嗎？"
},
"finish_reason": "stop",
"index": 1
},
{
"message": {
"role": "assistant",
"content": "\n\n您好，有什麼我可以為您做的嗎？"
},
"finish_reason": "stop",
"index": 2
}
]

回覆內容

依照上方的範例程式，他回傳的格式與內容會類似這樣：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


{
"id": "chatcmpl-6v4faabcd9gXfUerJvBf123Co",
"object": "chat.completion",
"created": 1679060660,
"model": "gpt-3.5-turbo-0301",
"usage": {
"prompt_tokens": 14,
"completion_tokens": 24,
"total_tokens": 38
},
"choices": [
{
"message": {
"role": "assistant",
"content": "\n\n你好，有什麼我可以為你效勞的嗎？"
},
"finish_reason": "stop",
"index": 0
}
]
}

usage 欄位顯示你本次消耗的 token 數量。

prompt_tokens：你問他(輸入)所消耗的 token。
completion_tokens：它回覆(輸出)所消耗的 token。
total_tokens：本次請求總共消耗多少 token，也就是 prompt_tokens 加 completion_tokens。

如果想知道一句話代表幾個 token，可以使用官方提供的 Python 套件 — tiktoken：https://github.com/openai/tiktoken
也有計算 token 相關的使用說明。

本來想說可以使用官方的 Tokenizer 網頁來計算，但它是 GPT-3 Model 的，官方有說轉換 token 的計算方式可能因不同 Model 而異，因此我實際使用其實跟 gpt-3.5-turbo 出來的結果有落差。

帳號實際的總使用量可以到帳號 Usage 頁面查看。

* 你會發現中文消耗的 token 比英文還多很多😭

choices 內就是主要我們想知道的部分 — ChatGPT 的回覆。

message > content：回覆的內容。
index：代表第幾種回覆。(如果輸入參數有設定 n 的話)
finish_reason：代表此次回覆結束的原因(狀態)，可能會有以下四種值：
- stop：完整的輸出。
- length：由於 max_tokens 參數或 token 限制，導致輸出不完整。
- content_filter：由於內容過濾器中的標誌而省略了內容。
- null：API 響應仍在進行中或未完成。

Playground 遊樂場

OpenAI 還有提供 Playground 遊樂場，可以在上面測試不同的模型、調整不同的參數，觀察其結果，方便我們去快速了解。

Playground 遊樂場：https://platform.openai.com/playground

Playground 遊樂場

對了，使用 Playground 也是會消耗你自己的 token，這點要稍微注意一下，不要以為是 ChatGPT 網頁而玩過頭了🤣

其他說明

串接 OpenAI API 發出請求可能會收到錯誤，而完整詳細的錯誤代碼說明與進一步的解決辦法，可以參考這邊官方的文章：https://platform.openai.com/docs/guides/error-codes

OpenAI API 在使用上還有一些速率限制，如果使用會比較大量的朋友可以過去了解一下：https://platform.openai.com/docs/guides/rate-limits/overview

結語

使用 OpenAI API 上非常簡單，只是有些小地方要注意一下。
在看完以上介紹，趕快實際動手做，看看有沒有什麼 idea 可以進一步放大 ChatGPT 的用途~

歡迎追蹤『IT空間』FB 粉專，取得最新發文通知🔔

參考：
OpenAI 官方說明文件
 OpenAI 官方 API 參考
 OpenAI 帳號後台
 OpenAI 各種 Model 說明
 OpenAI 各種 Model 價格
 OpenAI Playground 遊樂場
 OpenAI API 錯誤代碼
 OpenAI API 速率限制

別讓沒有夢想的人摧毀你的夢想。

Simple ML for Sheets — 輕鬆使用 Google Sheets 來預測數據

jia@jiatool.com (Jia) — Sat, 11 Feb 2023 21:00:00 +0800

前言

Simple ML 是 TensorFlow 開發團隊釋出的 Google Sheets 擴充套件，目前還處於測試階段。
可幫助所有人使用機器學習，包含沒有寫程式或 ML 基礎的人，只需要在 Google 表格中用滑鼠簡單點擊，就能夠對資料作出預測。

本篇文章會依照官方的這篇教學文章來做說明與教學。

Simple ML for Sheets

教學

分成以下章節：

安裝 Simple ML for Sheets
Task 1：預測缺失值 (Predict missing values)
Task 2：發現異常值 (Spot abnormal values)
進階功能

安裝 Simple ML for Sheets

前往 Google Workspace Marketplace 頁面安裝 Simple ML for Sheets

安裝 Simple ML for Sheets

複製官方提供的範例 sheet，下方的教學將操作此表格來說明各項功能。

複製官方提供的範例 sheet

打開此 sheet 後，看看上方工具列是否有 "擴充功能" > "Simple ML for Sheets"。
如果沒出現此按鈕，稍微等個一分鐘後重整網頁試試。

確認擴充功能有 Simple ML for Sheets 按鈕

Task 1：預測缺失值 (Predict missing values)

先確認切到 "Case #1: Predict missing values" 分頁。

Case #1: Predict missing values 分頁

簡單來說這份表格紀錄三種物種的企鵝("Chinstrap"、"Gentoo"、"Adelie")，每一行代表一隻企鵝，但可以看到觀測員漏填了幾隻企鵝的物種，所以我們要藉由企鵝的多項數值，預測出缺失的分別為哪種企鵝。

點擊上方工具列 "擴充功能" > "Simple ML for Sheets" > "Start"。

確認我們是要 "預測缺失值 (Predict missing values)"，並且需要預測的欄位是 "species"，開始 "Predict"。
(下方更多設定可以點開來研究研究~)

開始預測缺失值

稍等幾秒後，它會自動產生兩個欄位 "Pred:species"、"Pred:Conf.species"。
"Pred:species" 代表 AI 預測此企鵝是哪個物種；"Pred:Conf.species" 代表預測的信心度(百分比)。

預測缺失值結果

Task 2：發現異常值 (Spot abnormal values)

切換到 "Case #2: Spot abnormal values" 分頁。

Case #2: Spot abnormal values 分頁

這邊是科學家紀錄鮑魚的數據，最後一列 Rings 代表鮑魚殼上的環數(鮑魚的年齡)，像是可以透過樹幹上的年輪數判斷樹的年齡一樣，這次任務是要找出環數的異常情況。

一樣確認我們是要 "發現異常值 (Spot abnormal values)"，並且有異常值的欄位是 "Rings"，開始 "Spot abnormal values"。
(下方更多設定可以點開來研究~)

開始找出異常值

稍等幾秒後，它一樣會自動產生兩個欄位 "Pred:Abnormality:Rings"、"Pred:MostLikely:Rings"。
"Pred:Abnormality:Rings" 代表每一行與其值的相似程度，範圍從 0（最正常）到 1（最異常）；"Pred:MostLikely:Rings" 代表預測最有可能的環數。

預測異常值結果

進階功能

除了以上示範的 "預測缺失值"、"發現異常值" 以外，它還有幾項進階功能："訓練模型"、"評估模型"、"解釋模型"、"匯出模型" 等等。

"匯出模型" 是可以將模型導出到 Google Colab 做些其他的應用。

進階功能

至於以上訓練出來的模型，會幫你儲存在你的 Google 雲端硬碟根目錄的 "simple_ml_for_sheets" 資料夾內。

結語

可以從以上的範例中發現，就算是完全沒接觸過機器學習的使用者，只要點幾個按鈕，就可以輕易的 "預測缺失值" 或 "發現異常值"。
而且它是附加在 Google Sheets 裡，也不會特別另外學習複雜的 UI 操作，應該是還蠻容易使用的。

歡迎追蹤『IT空間』FB 粉專，取得最新發文通知🔔

參考：
Introducing Simple ML for Sheets: A No-code Machine Learning Add-on for Google Sheets
TensorFlow釋出Google Sheets零程式碼機器學習擴充套件
 Simple ML for Sheets Tutorial

當你踏上路途，路就會自己長出來。

Omnimatte 自動分離影片主體與背景

jia@jiatool.com (Jia) — Sat, 22 Oct 2022 20:55:00 +0800

前言

Omnimatte 是由 Google 與牛津大學的研究人員共同研究，並在去年(2021年)所發表的一項技術，是用於自動將影片中主體與背景分離，也就是類似俗稱的「去背」。

最厲害的點在於，包含主體相關的細節他都可以抓出來，像是陰影、反射和煙霧等等。

Omnimatte 技術

以下是我找了官方論文、部落格、影片，以及其他網站所介紹的文章、影片，所整理出來的說明，我對 AI 還很粗淺，如有眼尖的網友發現錯誤，歡迎留言跟我說~

Omnimatte 的效果

先來看這段影片範例，最左邊是原始輸入影片，第二張是使用像是 Mask R-CNN 這類自動產生遮罩 AI 所輸出的遮罩結果，可以看到目前的電腦視覺技術，已經可以自動產生像這樣的遮罩，用來去除影像背景，或合成景深、合成影像。

但從這個遮罩結果會發現一個問題，就是與主體相關的細節，像是陰影、反射和煙霧，通常會被演算法忽略。如果我們想把主體從影片中剔除，會造成主體的陰影或反射仍然存在的錯誤。

了解了目前的問題後，我們來看看 Omnimatte 處理的效果如何(中間那張)。
有沒有非常神奇？它可以將主體包含影子也一起摳出來，(最右邊)從影片中完完全全地去除，而且影子投射在椅子上的部份也去除了，只看這個片段完全不知道原始影片還有個人走過。

再來另一個例子。
這是從上方的角度拍攝，有一台車在甩尾並產生煙霧，Omnimatte 除了將煙霧抓出來外，明顯看出輸出的遮罩是有透明度上的變化。

Omnimatte：跑車甩尾

這樣我們可以做什麼應用？我們可以在主體與背景間插入文字，這也可以很明顯地看出提取煙霧確實包含透明度。

Omnimatte：跑車甩尾(加入文字)

關於這類從影片中生成遮罩的分割網絡，我們可以簡單分成三個等級。
第一級，只能抓出主體本身，就像 Mask R-CNN 這樣。
第二級，包含主體的影子、反射，並自動將其與主體關聯起來，人與人的影子、狗與狗的影子。
第三級，當被遮擋還會自動修復，注意看下圖，當狗擋住人的影子時，在輸出還是能預測出大致上正確的樣子。

Omnimatte：人與狗

接下來，我們稍微說明這項神奇的技術。

Omnimatte 架構與例子

Omnimatte 流程架構

這是 Omnimatte 簡單的流程，主要模型是一個 2D U-Net 的 CNN 架構。

首先使用現成的分割網絡 (Mask R-CNN) 提取每個對象的分割遮罩，及使用 STM 跨幀跟踪對象當輸入，讓遮罩可以更好的適配主體。

假設背景完全是靜態的，主體會有明顯的移動、變化，不過可能因為相機曝光的變化或光線的角度什麼的，使得背景會有些微的變化，為了避免這些變化影響到我們把主體提取出來，會先計算出這些背景噪點，讓 model 在學習時把它過濾掉，而這部分噪點的算法是有參考另一篇論文的方式去計算的。

這個模型針對個別影片進行訓練，只需要輸入原始影片即可，不需要觀察任何其他例子，也不需要任何標籤，在這種情況下，以自我監督的方式進行訓練去重建輸入影片。
為了讓結果更好、細部的優化，除了這個基本的處理外，還有使用 RAFT 計算連續幀之間的光流，這是為了追蹤主體跨幀的移動，避免某些幀可能發生破圖等等小問題。

因為 CNN 的特性，能夠良好地學習主體和相關特效之間的關聯性，兩者的相關性越強，CNN 就越容易學習，
像是在路上行走的人與狗，人和人的影子，以及狗和狗的影子之間的空間關係，都是從右向左移動，不過人與狗的影子比較不像、狗與人的影子比較不像，關係變化更大，因此相關性也就相對較弱，CNN 會先學習較強的相關性。就是說人的影子與人在形狀、運動上更相似，因此能獲得正確的分解結果。

我們來看更多其他例子，從中可以觀察到幾個重點：

球拍不包括在原本的輸入遮罩中，卻還是被順利抓出來。

Omnimatte：網球選手

黑天鵝的反射和牠引起的水波紋也可以。

Omnimatte：黑天鵝

大象噴出的半透明塵埃及陰影。

Omnimatte：大象

這個跟"人與狗"的那個影片類似，也是有兩個主體，分別為足球以及踢球的人。但注意人在踢到足球的時候，兩者物體是貼在一起，不過還是有成功地將人的影子與足球的影子分離。

Omnimatte：足球選手

而這個場景的挑戰在於：

下方兩位人都以相同的速度一致地移動。
玻璃上的反射與人在空間上的接近程度。

這例子算是一個失敗的結果，雖然陰影與人有正確關聯，但右上角的人投射在玻璃上的反射錯誤地與左下角的人分組，因為玻璃中的反射比較接近下方的人。

Omnimatte：街道

現有技術比較

我們來看看，現行有哪些方法可以達成類似的效果。

FGVC 影片補全演算法

FGVC (Flow-edge Guided Video Completion) 是 Facebook 發表的影片補全演算法。
在紅鶴的例子中，如果 FGVC 輸入的遮罩沒有包含倒影，那結果水中的倒影就會被保留下來，相反 Omnimatte 就完美的去除主體包括倒影的部分。
而下方跳舞的範例，在將舞者移除後，FGVC 存在著鬼影，而 Omnimatte 就比較自然。

與 FGVC 影片補全演算法比較

參考資料：
* Flow-edge Guided Video Completion | 官網
* Flow-edge Guided Video Completion | Paper
* Flow-edge Guided Video Completion | GitHub

陰影檢測

使用陰影檢測，看它能不能完整的抓出主體和陰影。
ISD (Instance Shadow Detection) 是 2020 年發表的基於深度學習的圖像陰影檢測方法，可以看到當影子投射在其他物體上時，ISD 很可能就檢測不出來，或是像下圖，當人的影子被狗擋到時，人和其影子也可能抓不到。

與 ISD 陰影檢測方法比較

這邊可以直接看影片，會發現 ISD 某幾幀會 miss 掉，Omnimatte 從頭到尾都很順的都有抓到。

參考資料：
* Instance Shadow Detection | Paper
* Instance Shadow Detection | GitHub

背景減法

下一種是使用背景減法，首先就有一個很明顯的缺點，就是它叫背景減法，表示它需要已知且乾淨的背景影像，再來研究人員說它對閾值非常敏感，更重要的是，當影片中有多個具有效果的對象時，它沒辦法把主體跟其效果關聯在一起。

分層神經渲染

最後是跟"分層神經渲染" (Layered Neural Rendering for Retiming People in Video) 做比較，這也是 Google 跟牛津大學的研究(其實跟 Omnimatte 是同位作者🤣)，是在 2020 年發表的。
兩者都成功捕捉變形、陰影和反射，但 Omnimatte 輸入更通用、簡單遮罩，分層神經渲染還需要先計算 UV 貼圖，而且這邊可以看到，有些背景也被捕捉進來。

參考資料：
* Layered Neural Rendering for Retiming People in Video | 官網
* Layered Neural Rendering for Retiming People in Video | Paper
* Layered Neural Rendering in PyTorch | GitHub

延伸應用

這項技術感覺這麼有趣，我們來看看他有那些延伸應用。

第一個最容易的是換背景，或者也可以說主體去背。它厲害在於還可以包括陰影等相關效果。
但右邊合成結果主體和背景光線、色調會有些不同，要比較好的成果要再做細部的調整。

接下來是頻閃攝影，又稱連閃攝影。
它的做法是在一個快門內，藉助於閃光燈的連續閃光，在一個畫面上記錄動體的連續運動過程，那因為需要多次曝光，所以需要在很暗的環境，可以看到物體的運動軌跡。
Omnimatte 應用的結果就有點類似這種頻閃攝影，只是它是動態影片版。

Omnimatte 頻閃攝影

最後這個影片重新定時，我覺得非常有趣，而且在實際生活上也比較可能常拿來應用。
前面提到 Omnimatte 能將影片中的主題獨立分出來，也就是一個影片內的物體可以擁有不同時間軸，像這影片內有三位小朋友，我們就可以得到三個圖層。在原始的影片中，每位小朋友跳入水裡的時間不同，但是透過調整三個圖層之間播放的時間軸，就能夠讓三位小朋友同時跳入水中，並且還包含水花和反射等效果。
這項特效常被應用在電影上，但是傳統的作法必須在受控的環境中，為每個單獨的主體拍攝影片。那借助Omnimatte後，即便日常的影片，都能夠簡單地操縱物體時間軸，你想讓某一個主體暫停，或改變播放速度都可以。有另外一篇論文，也是 Google 和牛津大學的研究論文，有更詳細的說明這個部分。

影片重新定時

* 這兩段圖片來源：https://retiming.github.io/

限制

當然，在目前研究的結果上，研究人員還是有說明一些限制。

第一，目前只能用來處理畫面固定不動，或小幅移動的影片，不然可能無法精確地捕捉整個背景，造成部分背景元素可能還原會有問題。
第二，CNN 在學習相關性上雖然非常強大，但是部分時候產生的結果不如預期，且研究人員也說還無法切確掌握原因。
再來，無法分離相對於背景完全靜止的主體及特效，目前這個模型需要主體有移動，才能將其與背景分離。
最後，這項技術可能遭到濫用，即便重新排列的影片中已經存在的內容，但是只要簡單地調整影片內容的順序，就可以被用來產生虛假和誤導性訊息。

結語

雖然這項技術還沒有實際應用，處於研究階段，但這個是 Google 正在研發的技術，或許不久的將來會在 Pixel 手機上看到也說不定呢~

如果有興趣等不及了，想要自己動手做，可以參考官方提供的 GitHub：https://github.com/erikalu/omnimatte

參考：
Introducing Omnimattes: A New Approach to Matte Generation using Layered Neural Rendering | Google AI Blog
Omnimatte: Associating Objects and Their Effects in Video
Omnimatte: Associating Objects and Their Effects in Video | Paper
Omnimatte: Associating Objects and Their Effects in Video (CVPR 2021 Oral)
This Magical AI Cuts People Out Of Your Videos! | Two Minute Papers
Google以分層神經渲染生成遮罩，可個別操縱影片中物體時間軸 | iThome

任何缺陷弱點，只要好好打磨，便能成為武器。

—— 《暗殺教室》