AI Agent (AI 代理) 簡介與研究方向 — MOPCON 筆記

前言

前幾天，去參加了在高雄的 MOPCON 科技年會，其中一場是由聯發科的 YC (陳宜昌) 來分享「從研究推測大型語言模型將如何引領人機互動新革命」，主要是介紹 AI Agent (AI 代理) 需要滿足哪些要素，以及目前的研究方向。

這邊做個簡易的筆記，也分享給各位。

會議筆記

人類吸收資訊

User ←→ Agent ←→ Information

人類透過 Media 吸收資訊，像是從以前 PDP-8 (真正意義上的小型電腦)、Macintosh (具有 GUI 的電腦)、Google 搜尋、iPhone，介面上使用越來越簡易、資訊量越來越多，下一代，很有可能就是透過 Agent 這個媒介。

AI Agent

先來看看維基百科上對於 Agent 的定義是怎樣：

In intelligence and artificial intelligence, an intelligent agent (IA) is an agent that perceives its environment, takes actions autonomously in order to achieve goals, and may improve its performance with learning or acquiring knowledge.
在智慧和人工智慧中，智慧代理（IA）是一種感知環境、自主採取行動以實現目標的代理，並可以透過學習或獲取知識來提高其性能。
— Wikipedia

一個 Agent 需要滿足三個要素：Perception、Decision Making、Action，分別是感知世界、決策判斷、採取行動三種能力。

AI Agent (AI 代理) 目前有以下四種研究方向：

Natural Language Control
Multi-modal Awareness
Tool Using
Reasoning

Natural Language Control

我們希望可以透過自然語言，也就是用人類的語言就可以與 Agent 對話、下指令，能以更自然、流暢的方式與機器交流。

目前 LLM 是通過大量的資料讓模型學習，例如預訓練的部分 Llama 3 用大約 75TB 的資料，而聯發科的 Breeze 使用了約 650GB 的繁體中文資料，繁體中文資料還是太少了。

下一步再透過 Supervised Fine-tuning、RLHF、DPO 等等技巧，讓結果更符合人類的需求。

就是多模態，LLM 除了可以支援文字輸入輸出，也要包含像是圖片、影片、聲音等等不同種類的數據，以實現更複雜的任務。

像是 Anthropic 前陣子展示的 Computer use，要讓模型可以看懂螢幕畫面上的內容，才有辦法做後續的決策、操作。

Tool Using

有些知識光靠模型本身是不足的，需要透過搜尋引擎來查詢最新資訊，或者藉由計算機來做精確的數學計算，還有使用程式工具來繪製圖表等等。

Agent 需要可以通過使用外部工具來完成更複雜的任務，這在 LLM 就是所謂的 Function Calling。

Reasoning

有一本心理學著作，把人類的思考方式分為快思(system 1)與慢想(system 2)，。

系統一不需要太思考，靠直覺就可以把它做好的，就像是 LLM 裡面預測下一個 token。

系統二需要仔細的思考，比如說你今天要處理一個非常困難的工作，做一個非常困難的數學問題，思考需要有步驟、有邏輯的。
現在研究會透過 Chain of Thought (CoT)，更進階的像是 Tree of Thoughts、Graph of Thoughts，還有 ReAct (Reason + Act) 框架技巧來達成慢想的部分。

The medium is the message.
—— 馬素·麥克魯漢 (現代傳播理論的奠基者)

🔻 如果覺得喜歡，歡迎在下方獎勵我 5 個讚~