解構AI框架:從智能代理到去中心化的探索
作者: YBB Capital Researcher Zeke
前言
在此前的文章中,我們已經多次探討了對於AI Meme現狀及AI Agent未來發展的看法。然而,AI Agent賽道的敘事發展之快、演變之劇,還是讓人有點應接不暇。自"真理終端"開啟Agent Summer以來的短短兩個月內,AI與Crypto結合的敘事幾乎每週都有新變化。近期,市場的注意力又開始聚焦於技術敘事主導的"框架類"項目中,這條細分賽道僅在過去幾週就已經跑出了多匹市值過億甚至是過十億的黑馬。而此類項目也衍生出了一種新的資產發行範式,即項目以Github代碼庫發幣,基於框架打造的Agent亦能再次發幣。以框架為底,Agent為上。形似資產發行平台,事實上卻是一種獨屬於AI時代的基建模式正在浮現。我們該如何審視這種新趨勢?本文將從框架簡介開始結合自身思考去解讀AI框架對於Crypto究竟意味著什麼?
一、何謂框架?
從定義上來說AI框架是一種底層開發工具或平台,集成了一套預構建的模塊、庫和工具,簡化了構建複雜 AI 模型的過程。這些框架通常也包含用於處理數據、訓練模型和進行預測的功能。簡而言之,你也可以把框架簡單理解為AI時代下的操作系統,如同桌面操作系統中的Windows、Linux,又或是移動端中的iOS與Android。每種框架都有其自身的優勢和劣勢,開發者可以依據具體的需求去自由選擇。
雖然"AI框架"一詞在Crypto領域中仍屬新興概念,但從其起源來看,自2010年誕生的Theano算起,AI框架的發展歷程其實已接近14年之久。在傳統AI圈無論是學界還是產業界都已經有非常成熟的框架可供選擇,例如谷歌的TensorFlow、Meta的Pytorch、百度的飛桨、字節的MagicAnimate,針對不同場景這些框架均有各自的優勢。
目前在Crypto中湧現出的框架項目,則是依據這波AI熱潮開端下大量Agent需求所打造的,而後又向Crypto其它賽道衍生,最終形成了不同細分領域下的AI框架。我們以當前圈內幾個主流框架為例,擴展一下這句話。
1.1 Eliza
首先以ai16z的Eliza為例,該框架是一個多Agent模擬框架,專門用於創建、部署和管理自主 AI Agent。基於TypeScript作為編程語言開發,其優勢便是兼容性更佳,更易於API集成。
依據官方文檔所示Eliza主要針對的場景便是社交媒體,比如多平台的集成支持,該框架提供功能齊全的Discord集成且支持語音頻道、X/Twitter平台的自動化賬戶、Telegram的集成以及直接的API訪問。在對於媒體內容的處理上支持PDF文檔的閱讀與分析、鏈接內容提取與摘要、音頻轉錄、視頻內容處理、圖像分析與描述,對話摘要。
Eliza當前支持的用例主要為四類:
AI助手類應用:客戶支持代理、社區管理員、個人助理;
社交媒體角色:自動內容創作者、互動機器人、品牌代表;
知識工作者:研究助手、內容分析師、文檔處理器;
互動角色:角色扮演角色、教育輔導員,娛樂機器人。
Eliza當前支持的模型:
開源模型本地推理:例如Llama3、Qwen1.5、BERT;
使用OpenAI的API基於雲推理;
默認配置為 Nous Hermes Llama 3.1B;
與 Claude集成以實現複雜查詢。
1.2 G.A.M.E
G.A.M.E(Generative Autonomous Multimodal Entities Framework)是Virtual推出的自動生成與管理的多模態AI框架,其針對場景主要是遊戲中的智能NPC設計,該框架還有一個特別之處在於低代碼甚至是無代碼基礎的用戶也可使用,根據其試用界面來看用戶僅需修改參數便可參與Agent設計。
在項目架構上,G.A.M.E的核心設計是通過多個子系統協同工作的模塊化設計,詳細架構如下圖。
Agent Prompting Interface:開發者與AI框架交互的接口。通過這個接口,開發者可以初始化一個會話,並指定會話ID、代理ID、用戶ID等參數;
Perception Subsystem:感知子系統負責接收輸入信息,並將其合成後發送給戰略規劃引擎。它還處理對話處理模塊的響應;
Strategic Planning Engine:戰略規劃引擎是整個框架的核心部分,分為高級規劃器(High Level Planner)和低級策略(Low Level Policy)。高級規劃器負責制定長期目標和計劃,而低級策略則將這些計劃轉化為具體的行動步驟;
World Context:世界上下文包含了環境信息、世界狀態和遊戲狀態等數據,這些信息用於幫助代理理解當前所處的情境;
Dialogue Processing Module:對話處理模塊負責處理消息和響應,它可以生成對話或反應作為輸出;
On Chain Wallet Operator:鏈上錢包操作員可能涉及到區塊鏈技術的應用場景,具體功能不明確;
Learning Module:學習模塊從反饋中學習並更新代理的知識庫;
Working Memory:工作記憶存儲了代理最近的動作、結果以及當前計劃等短期信息;
Long Term Memory Processor:長期記憶處理器負責提取關於代理及其工作記憶的重要信息,並根據重要性評分、近期性和相關性等因素進行排序;
Agent Repository:代理倉庫保存了代理的目標、反射、經驗和個性等屬性;
Action Planner:動作規劃器根據低級策略生成具體的行動計劃;
Plan Executor:計劃執行器負責執行由動作規劃器生成的行動計劃。
工作流程: 開發者通過Agent提示界面啟動Agent,感知子系統接收輸入並將其傳遞給戰略規劃引擎。戰略規劃引擎利用記憶系統、世界上下文和Agent庫中的信息,制定並執行行動計劃。學習模塊則持續監控Agent的行動結果,並根據結果調整Agent的行為。
應用場景: 從整個技術架構來看,該框架主要聚焦於Agent在虛擬環境中的決策、反饋、感知及個性,在用例上除了遊戲也適用於Metaverse,在Virtual的下方列表中可以看到已經有大量項目採用了該框架進行構建。
1.3 Rig
Rig 是一款用 Rust 語言編寫的開源工具,專為簡化大型語言模型(LLM)應用程序的開發而設計。它通過提供一個統一的操作界面,使開發者能夠輕鬆地與多個 LLM 服務提供商(例如 OpenAI 和 Anthropic)以及多種向量數據庫(如 MongoDB 和 Neo4j)進行交互。
核心特點:
統一接口:無論是誰的 LLM 提供商或哪種向量存儲,Rig 都能提供一致的訪問方式,極大地減少了集成工作的複雜性;
模塊化架構:框架內部採用模塊化設計,包含「提供商抽象層」、「向量存儲接口」和「智能代理系統」等關鍵部分,確保了系統的靈活性和可擴展性;
類型安全:利用 Rust 的特性實現了類型安全的嵌入操作,保障了代碼質量和運行時的安全性;
高效性能:支持異步編程模式,優化了並發處理能力;內置的日誌記錄和監控功能有助於維護和故障排查。
工作流程: 當用戶請求進入 Rig 系統後,會首先經過「提供商抽象層」,這裡負責標準化不同提供商之間的差異,並確保錯誤處理的一致性。接下來,在核心層中,智能代理可以調用各種工具或者查詢向量存儲來獲取所需的信息。最後,通過檢索增強生成(RAG)等高級機制,系統能夠結合文檔檢索和上下文理解,生成精確且有意義的響應,再返回給用戶。
應用場景: Rig 不僅適用於構建需要快速準確回答的問題解答系統,還可以用於創建高效的文檔搜索工具、具備情境感知能力的聊天機器人或虛擬助手,甚至支持內容創作,根據已有的數據模式自動生成文本或其他形式的內容。
1.4 ZerePy
ZerePy 是一個基於 Python 的開源框架,旨在簡化在 X (前 Twitter) 平台上部署和管理 AI Agent的過程。它脫胎於 Zerebro 項目,繼承了其核心功能,但以更模塊化、更易於擴展的方式進行設計。其目標是讓開發者能夠輕鬆創建個性化的 AI Agent,並在 X 上實現各種自動化任務和內容創作。
ZerePy 提供了一個命令行界面 (CLI),方便用戶管理和控制其部署的 AI Agent「1」。其核心架構基於模塊化設計,允許開發者靈活地集成不同的功能模塊,例如:
LLM 集成: ZerePy 支持 OpenAI 和 Anthropic 的大型語言模型 (LLM),開發者可以選擇最適合其應用場景的模型。這使得Agent能夠生成高質量的文本內容;
X 平台集成: 框架直接集成 X 平台的 API,允許Agent進行發帖、回覆、點讚、轉發等操作;
模塊化連接系統: 該系統允許開發者輕鬆添加對其他社交平台或服務的支持,擴展框架的功能;
記憶系統 (未來規劃): 雖然目前版本可能尚未完全實現,但 ZerePy 的設計目標包括集成記憶系統,使Agent能夠記住之前的互動和上下文信息,從而生成更連貫和個性化的內容。
雖然 ZerePy 和 a16z 的 Eliza 項目都致力於構建和管理 AI Agent,但兩者在架構和目標上略有不同。Eliza比較側重於多智能體模擬和更廣泛的 AI 研究,而 ZerePy 則專注於簡化在特定社交平台 (X) 上部署 AI Agent的過程,更偏向於實際應用中的簡化。
二、BTC生態的翻版
其實從發展路徑而言,AI Agent與23年末、24年初的BTC生態有著相當多異曲同工之處,BTC生態的發展路徑可以簡單概括為:BRC20-Atomical/Rune等多協議競爭-BTC L2-以Babylon為核心的BTCFi。而AI Agent在成熟的傳統AI技術棧基礎上則發展得更迅猛一些,但其整體發展路徑確實與BTC生態有許多相似之處,我將其簡單概括如下:GOAT/ACT-Social類Agent/分析類AI Agent框架競爭。從趨勢上來說圍繞Agent去中心化、安全性做文章的基建項目大概率也將承接這波框架熱,成為下個階段的主旋律。
那麼這條賽道是否會同BTC生態一樣走向同質化、泡沫化?我認為其實不然,首先AI Agent的敘事不是為了重現智能合約鏈的歷史,其次現有的AI框架項目技術上無論是真有實力還是停滯於PPT階段或ctrl c+ctrl v,至少它們提供了一種新的基建發展思路。許多文章將AI框架比作資產發行平台,Agent比作資產,其實相較於Memecoin Launchpad和銘文協議,我個人覺得AI框架更像未來的公鏈,Agent更像未來的Dapp。
在現今的Crypto中我們擁有數千條公鏈,數以萬計的Dapp。在通用鏈之中我們有BTC、以太坊以及各種異構鏈,而應用鏈的形式則更多樣化,如遊戲鏈、存儲鏈、Dex鏈。公鏈對應於AI框架其實兩者本就非常形似,而Dapp也可以很好地對應Agent。
在AI時代下的Crypto,極有可能將朝著這種形態前進,未來的爭論也將從EVM與異構鏈的爭論轉為框架之爭,現在的問題更多的是怎麼去中心化或者說鏈化?這點我想後續的AI基建項目會在這個基礎上展開,而另一點是在區塊鏈上做這件事有什麼意義?
三、上鏈的意義?
區塊鏈無論與什麼事物結合,終歸是要直面一個問題:有意義嗎?在去年的文章裡我批判過GameFi的本末倒置,Infra發展的過渡超前,在前幾期關於AI的文章中我也表達了並不看好現階段下實用領域中AI x Crypto的組合。畢竟,敘事的推動力對於傳統項目而言已經越來越弱,去年少有的幾個幣價表現較好的傳統項目基本也得具備匹配幣價或超越幣價的實力。AI對於Crypto能有什麼用?我在之前想到的是Agent代操作實現意圖,Metaverse、Agent作為員工等相對較俗卻有需求的想法。但這些需求都沒有完全上鏈的必要,從商業邏輯上來講也無法閉環。上一期提到的Agent瀏覽器實現意圖,倒是能衍生出數據標記、推理算力等需求,但兩者的結合還是夠不緊密且算力部分綜合多方面而言依舊是中心化算力佔優。
重新思考DeFi的成功之道,DeFi之所以能從傳統金融裡分到一杯羹,是因為具備更高的可及性、更好的效率和更低的成本、無需信任中心化的安全性。如果依照這個思路思考,我覺得能支持Agent鏈化的理由也許還有幾個。
1.Agent的鏈化是否能實現更低的使用成本從而達到更高的可及性與可選擇性?最終使獨屬於Web2大廠的AI"出租權"讓普通用戶也能參與;
2.安全性,依據Agent最簡單的定義,一個能被稱為Agent的AI理應能與虛擬或現實世界產生交互,如果Agent能介入現實或是我的虛擬錢包,那麼基於區塊鏈的安全方案也算一種剛需;
3.Agent能不能實現一套獨屬於區塊鏈的金融玩法?比如AMM中的LP,讓普通人也能參與自動做市,比如Agent需要算力、數據標記等,而用戶在看好的情況下以U的形式投入協議。又或者基於不同應用場景下的Agent能形成新的金融玩法;
4.DeFi在當前不具備完美的互操作性,結合區塊鏈的Agent如果能實現透明、可追溯的推理也許能比上一篇文章說到的傳統互聯網巨頭提供的agent瀏覽器更具吸引力。
四、創意?
框架類項目在未來也將提供一次類似GPT Store的創業機會。雖然當前通過框架發布一個Agent對於普通用戶還是很複雜,但我認為簡化Agent構建過程且提供一些複雜功能組合的框架,在未來還是會佔據上風,由此會形成一種比GPT Store更有趣的Web3創意經濟。
目前的GPT Store還是偏向傳統領域的實用性且大部分熱門App都是由傳統Web2公司創建,而在收入上也是由創作者獨占。依據OpenAI的官方解釋,該策略僅對美國地區部分傑出開發者提供資金支持,給予一定額度的補貼。
Web3從需求上來看還存在許多尚需填補的方面,而在經濟體系上也可使Web2巨頭不公平的政策更公平化,除此之外,我們自然也可以引入社區經濟來使Agent更加完善。Agent的創意經濟將是普通人也能參與的一次機會,而未來的AI Meme也將遠比GOAT、Clanker上發行的Agent要更為智能、有趣。
參考文章:
2.Bybit:AI Rig Complex (ARC):AI 代理框架
3.Deep Value Memetics:橫向對比四大 Crypto×AI 框架:採用狀況、優劣勢、增長潛力