深度解析 Multi-Agent:Web3 與 AI 終將相互成就?
如果說 AIGC 開啟了內容生成的智能時代,那麼 AI Agent 則有機會把 AIGC 的能力真正產品化。
AI Agent 像一位更具象的全能員工,被稱為是人工智能機器人的初級形態,能夠如同人類一般觀察周遭環境、做出決策,並自動採取行動。
比爾·蓋茨曾直言,"掌控 AI Agent,才是真正的成就。屆時,你將不再需要親自上網搜索信息。"AI 領域的權威專家們同樣對 AI Agent 的前景寄予厚望。微軟 CEO 薩提亞·納德拉曾預言,AI Agent 將成為人機交互的主要方式,能夠理解用戶需求並主動提供服務。吳恩達教授亦預測,在未來的工作環境中,人類和 AI Agent 將以更加緊密的方式協作,形成高效的工作模式,提高效率。
AI Agent 不單是技術的產物,更是未來生活與工作方式的核心。
這不禁讓人回想,當 Web3 和區塊鏈剛引起廣泛討論時,人們也常常用"顛覆"一詞來形容這項技術的潛力。回顧過去幾年,Web3 從最初的 ERC-20、零知識證明,逐漸發展到了與其他領域相融合的 DeFi、DePIN、GameFi 等。
若將 Web3 與 AI 這兩大熱門數字科技相結合,會不會產生 1+1>2 的效果呢?融資規模越來越龐大的 Web3 AI 項目,能否為行業帶來新的用例範式,創造新的真實需求?
AI Agent:人類最理想的智能助手
AI Agent 的想像力到底在哪裡?網上盛傳一個高分答案,"大語言模型只能編個貪吃蛇,而 AI Agent 可以編出一整個王者榮耀。"聽起來很誇張,但並未言過其實。
Agent,國內通常翻譯為"智體"。這一概念由"人工智能之父" Minsky 在 1986 年出版的《思維的社會》一書中提出,Minsky 認為社會中的某些個體經過協商之後可得出某一問題的解,這些個體就是 Agent。多年來,Agent 一直是人機交互的基石,從微軟的剪輯助手 Clippy 到 Google Docs 的自動建議,這些早期形態的 Agent 表現出了個性化交互的潛力,但在處理更複雜任務方面能力仍然有限。直到大語言模型(LLM)的出現,Agent 的真正潛力才得以被挖掘。
今年 5 月,AI 領域權威學者吳恩達教授在美國紅杉 AI 活動上分享了關於 AI Agent 的演講,在其中,他展示了其團隊做的一系列實驗:
讓 AI 去寫一些代碼並運行,對比不同 LLM 和工作流程得出的結果。結果如下:
GPT-3.5 模型:準確率 48%
GPT-4 模型:準確率 67%
GPT-3.5 + Agent:高於 GPT-4 模型的表現
GPT-4 + Agent:遠高於 GPT-4 模型,非常出色
的確。大多數人在使用 ChatGPT 這種 LLM 時,方式通常是:輸入一段提示詞,大模型會立即生成答案,不會自動識別和糾正錯誤刪除重寫。
相比之下,AI Agent 工作流程是這樣的:
首先,先讓 LLM 寫一個文章大綱,如有必要,先在互聯網上搜索內容進行調研分析,輸出初稿,然後閱讀草稿並思考如何優化,如此循環往復、多次迭代,最終輸出一篇邏輯嚴謹、錯誤率最低的高質量文章。
我們可以發現,AI Agent 與 LLM 的區別在於,LLM 與人類之間的交互基於提示詞(prompt)進行。而 AI Agent 僅需設定一個目標,它就能夠針對目標獨立思考並做出行動。根據給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創建 prompt,來實現目標。
因此 OpenAI 對 AI Agent 的定義是:以 LLM 為大腦驅動,具有自主理解感知、規劃、記憶和使用工具的能力,能自動化執行完成複雜任務的系統。
當 AI 從被使用的工具變成可以使用工具的主體,就成為了 AI Agent。這也正是 AI Agent 可以成為人類最理想智能助手的原因所在。例如,AI Agent 能夠基於用戶歷史線上互動,了解並記憶用戶的興趣、偏好、日常習慣,識別用戶的意圖,主動提出建議,並協調多個應用程序去完成任務。
就如同在蓋茨的構想中,未來我們不再需要為不同的任務切換到不同的應用中,只需用平常的語言告訴電腦和手機想做什麼,根據用戶願意共享的數據,AI Agent 將提供個性化的響應。
單人獨角獸公司正在成為現實
AI Agent 還能夠幫助企業打造以"人機協同"為核心的智能化運營新模式。越來越多的業務活動將交由 AI 來完成,而人類則只需要聚焦於企業願景、戰略和關鍵路徑的決策上。
就像 OpenAI 首席執行官 Sam Altman 曾在採訪中提到過這樣一個引人注目的觀點,隨著 AI 的發展,我們即將進入"單人獨角獸"時代,即由單人創辦並達到 10 億美元估值的公司。
聽起來天方夜譚,但在 AI Agent 的助力下,這個觀點正在成為現實。
不妨做個假設,現在我們要創辦一家科技初創公司。按照傳統方法,顯然我需要雇用軟件工程師、產品經理、設計師、營銷人員、銷售和財務人員,各司其職但都由我來協調。
那麼如果使用 AI Agent 呢,我可能甚至都不需要雇用員工。
- Devin --- 自動化編程
替代軟件工程師,我可能會使用今年爆火的 AI 軟件工程師 Devin,它能幫我完成所有前端和後端的工作。
Devin 由 Cognition Labs 開發,被稱為是"世界上第一個 AI 軟件工程師"。它能夠獨立完成整個軟件開發工作,獨立分析問題、做出決策、編寫代碼並修復錯誤,均可自主執行。大大減輕了開發人員的工作負擔。Devin 在短短半年內就獲得了 1.96 億美元的融資,估值迅速飆升至數十億美元,投資方包括 Founders Fund、Khosla Ventures 等知名風險投資公司。
雖然 Devin 仍未推出公開版本,但我們可以從另一個最近爆火 Web2 的產品 Cursor 一窺潛力。它幾乎可以為你完成所有工作,將一個簡單的想法在幾分鐘內轉化為功能性代碼,你只需要發號施令,就能「坐享其成」。有報導稱,一個八歲的孩子,在沒有任何編程經驗的情況下,居然使用 Cursor 完成代碼工作並建起了一個網站。
- Hebbia --- 文件處理
替代產品經理或財務人員,我可能會選擇 Hebbia,它能幫我完成所有文檔的整理和分析。
與 Glean 側重企業內文檔搜索不同,Hebbia Matrix 是一個企業級的 AI Agent 平台,借助多個 AI 模型,幫助用戶高效地提取、結構化、分析數據和文檔,從而推動企業生產力的提高。令人印象深刻的是,Matrix 能一次性處理多達數百萬份文檔。
Hebbia 在今年 7 月完成了 1.3 億美元 B 輪,a16z 领投,Google Ventures、Peter Thiel 等知名投資者參投。
- Jasper AI --- 內容生成
替代社媒運營和設計師,我可能會選擇 Jasper AI,它能幫我完成內容的生成。
Jasper AI 是一個 AI Agent 寫作助手,旨在幫助創作者、營銷人員和企業簡化內容生成流程,提高生產力和創作效率。Jasper AI 能夠根據用戶要求的風格生成多種類型的內容,包括博客文章、社交媒體帖子、廣告文案和產品描述等。並根據用戶的描述生成圖片,為文本內容提供視覺輔助。
Jasper AI 已獲得 1.25 億美元的融資,並在 2022 年達到了 15 億美元的估值。根據統計數據,Jasper AI 已幫助用戶生成超過 5 億個單詞,成為使用最廣泛的 AI 寫作工具之一。
- MultiOn --- 網頁自動化操作
替代助理,我可能會選擇 MultiOn,幫我管理日常任務、安排日程、設置提醒,甚至是規劃出差行程,自動預訂酒店,自動安排網約車。
MultiOn 是一個自動化的網絡任務 AI 代理,能夠幫助在任何數字環境中自主執行任務,例如幫助用戶完成在線購物、預約等個人任務,提升個人效率,或幫助用戶簡化日常事務,提高工作效率。
- Perplexity --- 搜索、研究
替代研究員,我可能會選擇英偉達 CEO 都在每天使用的 Perplexity。
Perplexity 是一個 AI 搜索引擎,能夠理解用戶的提問,拆分問題,然後搜索和整合內容,生成報告,以向用戶提供清晰的答案。
Perplexity 適用於各類用戶群體,例如學生和研究人員可以簡化寫作時的信息檢索流程,提高效率;營銷人員可以獲取可靠數據支持營銷策略。
以上內容僅為想像,當下這些 AI Agent 的真正能力和水平尚不足以替代各行各業中的精英人才。正如 Logenic AI 聯合創始人李博杰所言,目前 LLM 的能力還只是入門級水平,遠遠達不到專家級,現階段的 AI Agent 更像是一個幹活比較快但不太可靠的員工。
然而,這些 AI Agent 憑藉各自的特長,正在助力現有用戶在多樣化場景中提高效率和便利性。
不僅僅限於科技公司,各行各業都可以在 AI Agent 的浪潮中獲得益處。在教育領域,AI Agent 可以根據學生的學習進度、興趣和能力提供個性化的學習資源和輔導;在金融領域,AI Agent 可以幫助用戶管理個人財務,提供投資建議,甚至預測股票走勢;在醫療領域,AI Agent 可以幫助醫生進行疾病診斷和治療方案的制定;在電商領域,AI Agent 還可以作為智能客服,通過自然語言處理和機器學習技術自動回答用戶諮詢,處理訂單問題和退貨請求,以此提高客戶服務效率。
Multi-Agent:AI Agent 的下一步
在上一節關於單人獨角獸公司的設想中,單一的 AI Agent 在處理複雜任務時面臨著局限性,難以滿足實際需求。而運用多個 AI Agent 時,由於這些 AI Agent 基於異構 LLM,集體決策困難,能力有限,以至於還需要人類充當這些獨立 AI Agent 之間的調度員,協調這些服務於不同應用場景的 AI Agent 去工作。這便催生了"Multi Agent(多智體框架)"的興起。
複雜問題往往需要融合多方面的知識和技能,而單個 AI Agent 的能力有限,難以勝任。通過將不同能力的 AI Agent 進行有機組合,Multi-Agent 系統可以讓 AI Agent 發揮各自的長處,取長補短,從而更有效地解決複雜問題。
這非常類似於我們實際中的工作流程或組織結構:由一個領導者分配任務,擁有不同能力的人,負責不同的任務,每個工序執行的結果給到下一個工序,最終得到最後的任務成果。
在實現過程上,由較低級別 AI Agent 執行各自的任務,而由級別較高的 AI Agent 分配任務,並對它們的完成情況進行監督。
Multi-Agent 還能模擬我們人類的決策過程,就像我們遇到問題時會找人商量一樣,多個 AI Agent 也可以模擬集體決策的行為,為我們提供更好的信息支持。例如由微軟開發的 AutoGen 就滿足了這一點:
能夠創建不同角色的 AI Agent。這些 AI Agent 具有基本的對話能力,能夠根據接收到的消息,生成回覆。
通過 GroupChat 來創建由多個 AI Agent 參與的群聊環境,在這個 GroupChat 有一個管理員角色的 AI Agent 管理其他 AI Agent 的聊天記錄、發言者順序、終止發言等。
如果應用到單人獨角獸公司的設想裡,我們可以通過 Multi-Agent 架構創建幾個不同角色的 AI Agent,比如項目經理、程序員或者主管。把我們的目標告訴它們,讓它們任意去想辦法,我們只要在一旁聽匯報,如果覺得有意見或者它們做得不對的地方,就讓它們改,直到滿意為止。
相比單一的 AI Agent,Multi-Agent 可以實現:
可擴展性:通過增加 AI Agent 的數量來處理更大規模的問題,每個 AI Agent 處理任務的一部分,使得系統能夠隨著需求的增長而擴展。
並行性:天然支持並行處理,多個 AI Agent 可以同時在問題的不同部分上工作,從而加速了問題解決。
決策改進:通過聚合多個 AI Agent 的洞察力來增強決策制定,因為每個 AI Agent 都有自己的視角和專業知識。
隨著 AI 技術的不斷進步,可以想像 Multi-Agent 框架將在更多行業發揮更大的作用,並推動 AI 驅動的各類新解決方案的發展。
AI Agent 之風,吹向 Web3
邁出實驗室,AI Agent 和 Multi-Agent 道阻且長。
暫且不論 Multi-Agent,即便是當下最先進的單一 AI Agent,其需要的算力資源和計算能力在物理層面仍有明確的上限,無法做到無限擴展。一旦面臨極其錯綜複雜、計算量密集的任務,AI Agent 無疑將會遭遇算力瓶頸,性能大打折扣。
再者,AI Agent 和 Multi-Agent 系統本質上是一種集中式的架構模式,這決定了它存在著極高的單一故障風險。更重要的是,OpenAI、微軟、谷歌等公司基於閉源大模型的壟斷商業模式,嚴重威脅獨立、單一的 AI Agent 創業公司的生存環境,使得 AI Agent 無法順利利用龐大的企業私有數據來使它們變得更聰明、更有效率。AI Agent 之間亟需民主化的協作環境,使得真正有價值的 AI Agent 得以服務更廣闊的需求人群,為社會創造更大的價值。
最後,雖然與 LLM 相比,AI Agent 更貼近產業,但其發展基於 LLM,而當前大模型賽道的特點是技術門檻高、資金投入多、商業模式尚且發展不成熟,AI Agent 通常很難獲得融資以持續更新迭代。
Multi-Agent 的範式是 Web3 助力 AI 的絕佳角度,已經有不少 Web3 開發團隊正在這些方面投入研發提供解決方案。
AI Agent 和 Multi-Agent 系統通常需要大量的計算資源來進行複雜的決策和處理任務。Web3 通過區塊鏈和去中心化技術,可以構建去中心化的算力市場,使得算力資源可以在全球範圍內更加公平和高效地分配和利用。Akash、Nosana、Aethir、IO.net 等 Web3 項目可以對 AI Agent 決策和推理提供計算能力。
傳統的 AI 系統往往是集中式管理,導致 AI Agent 面臨單點故障和數據隱私問題,Web3 的去中心化特性可以使得 Multi-Agent 系統更加分散和自治,每個 AI Agent 可以獨立地運行在不同的節點上,自主執行用戶提出的需求,增強了魯棒性和安全性。通過 PoS、DPoS 等機制建立針對質押者、委託者的激勵懲罰機制,可以促進單一 AI Agent 或 Multi-Agent 系統的民主化。
在這方面,GaiaNet、Theoriq、PIN AI、HajimeAI 都有非常前沿的嘗試。
Theoriq 是一個服務於"AI for Web3"的項目,希望通過 Agentic Protocol 建立 AI Agents 的調用和經濟系統,普及 Web3 的開發和許多功能性場景,為 Web3 dApp 提供可驗證的模型推理能力。
GaiaNet 以節點為基礎的 AI Agent 創建和部署環境,以保護專家、用戶的知識產權與數據隱私為出發點,抗衡中心化的 OpenAI GPT Store。
HajimeAI 則在兩者基礎上發力 AI Agent 工作流在實際需求中的建立和針對意圖本身的智能化、自動化,呼應 PIN AI 提到的"AI智能的個性化"。
同時,Modulus Labs 與 ORA Protocol 分別在 AI Agent 的 zkML 和 opML 的算法方向取得了進展。
最後,AI Agent 和 Multi-Agent 系統的開發和迭代往往需要大量的資金支持,而 Web3 可以通過前置流動性的特點幫助有潛力的 AI Agent 項目獲取寶貴的早期支持。
Spectral 和 HajimeAI 均提出了支持發行鏈上 AI Agent 資產的產品構想:通過 IAO(Initial Agent Offering)發行代幣,AI Agent 可以直接從投資者獲得資金,同時成為 DAO 治理的一員,為投資者提供參與項目發展和分享未來收益的機會。其中 HajimeAI 的 Benchmark DAO 希望通過眾籌加代幣激勵的方式,將去中心化的 AI Agent 評分和 AI Agent 資產發行有機結合起來,打造 AI Agent 依託 Web3 融資和冷啟動的閉環,也是比較新穎的嘗試。
AI 潘多拉魔盒已然開啟,置身其中的每個人既興奮又迷茫,熱潮下是機遇還是暗礁,無人知曉。如今,各行各業都已不再是 PPT 融資時代,無論多麼前沿的技術,也只有落地才能實現價值。AI Agent 的未來注定是一場漫長的馬拉松,而 Web3 正確保它不會在這場競賽中黯然退場。