AIフレームワークの解構:インテリジェントエージェントから分散型への探求
著者: YBB Capital Researcher Zeke
前言
これまでの文章で、AI Memeの現状やAI Agentの将来の発展について何度も考察してきました。しかし、AI Agentの分野における物語の発展の速さや変化の激しさには、少し戸惑いを感じています。「真理端末」がAgent Summerを開始してからわずか2ヶ月の間に、AIとCryptoの結びつきに関する物語はほぼ毎週新たな変化を見せています。最近では、市場の注目が技術的な物語が主導する「フレームワーク型」プロジェクトに再び集まり、この細分化された分野では過去数週間で数多くの時価総額が1億円を超える、あるいは10億円を超えるダークホースが現れました。このようなプロジェクトは、新たな資産発行のパラダイムを生み出し、プロジェクトがGithubのコードリポジトリを基にトークンを発行し、フレームワークに基づいて構築されたAgentも再度トークンを発行できるようになっています。フレームワークを基盤とし、Agentを上に置く。資産発行プラットフォームのように見えますが、実際にはAI時代特有のインフラモデルが浮かび上がっています。この新たなトレンドをどのように捉えるべきでしょうか?この記事では、フレームワークの概要から始め、自身の考えを交えてAIフレームワークがCryptoにとって何を意味するのかを解読していきます。
一、フレームワークとは?
定義として、AIフレームワークは、複雑なAIモデルの構築プロセスを簡素化するために、事前構築されたモジュール、ライブラリ、ツールのセットを統合した基盤開発ツールまたはプラットフォームです。これらのフレームワークは通常、データ処理、モデルのトレーニング、予測を行うための機能も含まれています。簡単に言えば、フレームワークはAI時代のオペレーティングシステムとして理解することもできます。デスクトップオペレーティングシステムのWindowsやLinux、あるいはモバイル端末のiOSやAndroidのように、それぞれのフレームワークには独自の利点と欠点があり、開発者は具体的なニーズに応じて自由に選択できます。
「AIフレームワーク」という言葉はCrypto分野ではまだ新しい概念ですが、その起源を遡ると、2010年に誕生したTheanoから数えて、AIフレームワークの発展の歴史は実際には14年に近づいています。伝統的なAIの分野では、学界や産業界において非常に成熟したフレームワークが選択肢として存在しています。例えば、GoogleのTensorFlow、MetaのPytorch、百度の飛桨、字節のMagicAnimateなど、異なるシーンに応じてそれぞれのフレームワークには独自の利点があります。
現在Cryptoの中で現れているフレームワークプロジェクトは、このAIブームの始まりにおける大量のAgentの需要に基づいて構築され、その後Cryptoの他の分野に派生し、最終的には異なる細分化された分野におけるAIフレームワークが形成されました。現在の業界内のいくつかの主流フレームワークを例に挙げて、この文を拡張してみましょう。
1.1 Eliza
まず、ai16zのElizaを例に挙げます。このフレームワークは、複数のAgentをシミュレーションするためのフレームワークで、自律AI Agentの作成、展開、管理に特化しています。TypeScriptをプログラミング言語として開発されており、その利点は互換性が高く、API統合が容易であることです。
公式文書によれば、Elizaが主に対象としているシーンはソーシャルメディアであり、複数のプラットフォームの統合サポートを提供しています。このフレームワークは、機能が充実したDiscord統合を提供し、音声チャンネル、X/Twitterプラットフォームの自動化アカウント、Telegramの統合、直接的なAPIアクセスをサポートしています。メディアコンテンツの処理においては、PDF文書の読み取りと分析、リンクコンテンツの抽出と要約、音声の文字起こし、動画コンテンツの処理、画像分析と説明、対話の要約をサポートしています。
Elizaが現在サポートしているユースケースは主に4つです:
- AIアシスタントアプリケーション:カスタマーサポートエージェント、コミュニティ管理者、パーソナルアシスタント;
- ソーシャルメディアの役割:自動コンテンツクリエイター、インタラクティブボット、ブランド代表;
- 知識労働者:研究アシスタント、コンテンツアナリスト、文書処理者;
- インタラクティブな役割:ロールプレイングキャラクター、教育カウンセラー、エンターテイメントボット。
Elizaが現在サポートしているモデル:
- オープンソースモデルのローカル推論:例えばLlama3、Qwen1.5、BERT;
- OpenAIのAPIを使用したクラウド推論;
- デフォルト設定はNous Hermes Llama 3.1B;
- Claudeと統合して複雑なクエリを実現。
1.2 G.A.M.E
G.A.M.E(Generative Autonomous Multimodal Entities Framework)は、Virtualが提供する自動生成および管理のためのマルチモーダルAIフレームワークで、主にゲーム内のインテリジェントNPCの設計を対象としています。このフレームワークの特別な点は、ローコードまたはノーコードの基礎を持つユーザーでも使用できることです。試用インターフェースによれば、ユーザーはパラメータを変更するだけでAgentの設計に参加できます。
プロジェクトのアーキテクチャにおいて、G.A.M.Eのコアデザインは、複数のサブシステムが協調して動作するモジュール化された設計です。詳細なアーキテクチャは以下の図の通りです。
- Agent Prompting Interface:開発者とAIフレームワークが対話するインターフェース。このインターフェースを通じて、開発者はセッションを初期化し、セッションID、エージェントID、ユーザーIDなどのパラメータを指定できます;
- Perception Subsystem:知覚サブシステムは、入力情報を受け取り、それを合成して戦略計画エンジンに送信します。また、対話処理モジュールの応答も処理します;
- Strategic Planning Engine:戦略計画エンジンは、フレームワーク全体のコア部分であり、高レベルプランナーと低レベルポリシーに分かれています。高レベルプランナーは長期的な目標と計画を策定し、低レベルポリシーはこれらの計画を具体的な行動ステップに変換します;
- World Context:世界のコンテキストには、環境情報、世界の状態、ゲームの状態などのデータが含まれており、これらの情報はエージェントが現在の状況を理解するのに役立ちます;
- Dialogue Processing Module:対話処理モジュールは、メッセージと応答を処理し、出力として対話や反応を生成します;
- On Chain Wallet Operator:チェーン上のウォレットオペレーターは、ブロックチェーン技術の応用シーンに関与する可能性があり、具体的な機能は不明です;
- Learning Module:学習モジュールは、フィードバックから学び、エージェントの知識ベースを更新します;
- Working Memory:作業メモリは、エージェントの最近の行動、結果、現在の計画などの短期情報を保存します;
- Long Term Memory Processor:長期記憶プロセッサは、エージェントおよびその作業メモリに関する重要な情報を抽出し、重要性スコア、最近性、関連性などの要因に基づいてソートします;
- Agent Repository:エージェントリポジトリは、エージェントの目標、反射、経験、個性などの属性を保存します;
- Action Planner:アクションプランナーは、低レベルポリシーに基づいて具体的な行動計画を生成します;
- Plan Executor:プランエグゼキューターは、アクションプランナーによって生成された行動計画を実行します。
作業フロー: 開発者はエージェント提示インターフェースを通じてエージェントを起動し、知覚サブシステムが入力を受け取り、戦略計画エンジンに渡します。戦略計画エンジンは、メモリシステム、世界のコンテキスト、エージェントライブラリの情報を利用して行動計画を策定し実行します。学習モジュールは、エージェントの行動結果を継続的に監視し、その結果に基づいてエージェントの行動を調整します。
応用シーン: 全体の技術アーキテクチャから見ると、このフレームワークは主に仮想環境におけるエージェントの意思決定、フィードバック、知覚、個性に焦点を当てており、ユースケースとしてはゲームだけでなくメタバースにも適用可能です。Virtualの下のリストには、すでに多くのプロジェクトがこのフレームワークを使用して構築されていることが見て取れます。
1.3 Rig
Rigは、Rust言語で書かれたオープンソースツールで、大規模言語モデル(LLM)アプリケーションの開発を簡素化するために設計されています。統一された操作インターフェースを提供することで、開発者は複数のLLMサービスプロバイダー(OpenAIやAnthropicなど)やさまざまなベクトルデータベース(MongoDBやNeo4jなど)と簡単に対話できます。
コア特徴:
- 統一インターフェース:どのLLMプロバイダーやどのベクトルストレージであっても、Rigは一貫したアクセス方法を提供し、統合作業の複雑さを大幅に削減します;
- モジュール化アーキテクチャ:フレームワーク内部はモジュール化設計を採用し、「プロバイダー抽象層」、「ベクトルストレージインターフェース」、「インテリジェントエージェントシステム」などの重要な部分を含み、システムの柔軟性と拡張性を確保しています;
- 型安全性:Rustの特性を利用して型安全な埋め込み操作を実現し、コードの品質と実行時の安全性を保証します;
- 高効率性能:非同期プログラミングモードをサポートし、同時処理能力を最適化しています。内蔵のログ記録と監視機能は、メンテナンスや障害のトラブルシューティングに役立ちます。
作業フロー: ユーザーがRigシステムにリクエストを送信すると、最初に「プロバイダー抽象層」を通過します。ここでは、異なるプロバイダー間の違いを標準化し、エラーハンドリングの一貫性を確保します。次に、コア層では、インテリジェントエージェントがさまざまなツールを呼び出したり、ベクトルストレージをクエリして必要な情報を取得したりします。最後に、情報検索と文脈理解を組み合わせて、正確で意味のある応答を生成し、ユーザーに返します。
応用シーン: Rigは、迅速かつ正確な回答を必要とする質問応答システムの構築だけでなく、高効率の文書検索ツール、状況認識能力を持つチャットボットやバーチャルアシスタントの作成、さらには既存のデータパターンに基づいて自動的にテキストや他の形式のコンテンツを生成することもサポートします。
1.4 ZerePy
ZerePyは、Pythonに基づくオープンソースフレームワークで、X(旧Twitter)プラットフォーム上でAI Agentを展開および管理するプロセスを簡素化することを目的としています。Zerebroプロジェクトから派生し、そのコア機能を継承していますが、よりモジュール化され、拡張しやすい方法で設計されています。開発者が簡単にパーソナライズされたAI Agentを作成し、X上でさまざまな自動化タスクやコンテンツ作成を実現できるようにすることが目標です。
ZerePyは、ユーザーが展開したAI Agentを管理および制御するためのコマンドラインインターフェース(CLI)を提供します。「1」。そのコアアーキテクチャはモジュール化設計に基づいており、開発者がさまざまな機能モジュールを柔軟に統合できるようになっています。例えば:
- LLM統合:ZerePyはOpenAIとAnthropicの大規模言語モデル(LLM)をサポートしており、開発者はアプリケーションシーンに最も適したモデルを選択できます。これにより、Agentは高品質なテキストコンテンツを生成できます;
- Xプラットフォーム統合:フレームワークはXプラットフォームのAPIを直接統合しており、Agentが投稿、返信、いいね、リツイートなどの操作を行うことを可能にします;
- モジュール化接続システム:このシステムにより、開発者は他のソーシャルプラットフォームやサービスのサポートを簡単に追加し、フレームワークの機能を拡張できます;
- メモリシステム(将来の計画):現在のバージョンでは完全に実装されていないかもしれませんが、ZerePyの設計目標には、Agentが以前の対話や文脈情報を記憶し、より一貫性のあるパーソナライズされたコンテンツを生成できるようにすることが含まれています。
ZerePyとa16zのElizaプロジェクトはどちらもAI Agentの構築と管理に取り組んでいますが、両者はアーキテクチャや目標において若干の違いがあります。Elizaは複数のインテリジェントエージェントのシミュレーションやより広範なAI研究に重点を置いているのに対し、ZerePyは特定のソーシャルプラットフォーム(X)上でのAI Agentの展開を簡素化することに焦点を当てており、実際のアプリケーションにおける簡素化に偏っています。
二、BTCエコシステムの翻版
実際、発展の道筋において、AI Agentは2023年末や2024年初頭のBTCエコシステムとかなり多くの類似点があります。BTCエコシステムの発展の道筋は、簡単に言えば:BRC20-Atomical/Runeなどの多プロトコル競争-BTC L2-Babylonを中心としたBTCFiです。一方、AI Agentは成熟した伝統的なAI技術スタックの基盤の上でより急速に発展していますが、その全体的な発展の道筋は確かにBTCエコシステムと多くの類似点があります。私はこれを簡単に次のようにまとめます:GOAT/ACT-ソーシャル型Agent/分析型AI Agentフレームワークの競争です。トレンドとしては、Agentの分散化や安全性に焦点を当てたインフラプロジェクトが、このフレームワークの熱を引き継ぎ、次の段階の主旋律になる可能性が高いです。
この分野はBTCエコシステムと同様に同質化やバブル化の道を辿るのでしょうか?私はそうは思いません。まず、AI Agentの物語はスマートコントラクトチェーンの歴史を再現するためのものではありません。次に、既存のAIフレームワークプロジェクトは、技術的に実力があるか、PPT段階やctrl c+ctrl vに停滞しているかにかかわらず、少なくとも新しいインフラ発展の考え方を提供しています。多くの文章がAIフレームワークを資産発行プラットフォームに例え、Agentを資産に例えていますが、Memecoin Launchpadや铭文协议と比較すると、私個人としてはAIフレームワークは未来のパブリックチェーンに近く、Agentは未来のDappに近いと感じています。
現在のCryptoには数千のパブリックチェーンと数万のDappがあります。一般的なチェーンにはBTC、イーサリアム、さまざまな異種チェーンがあり、アプリケーションチェーンの形式はゲームチェーン、ストレージチェーン、Dexチェーンなど多様化しています。パブリックチェーンはAIフレームワークに非常に似ており、DappもAgentにうまく対応できます。
AI時代のCryptoは、このような形態に向かって進む可能性が高く、未来の議論はEVMと異種チェーンの議論からフレームワークの争いに移るでしょう。現在の問題は、どのように分散化するか、あるいはチェーン化するかということです。この点について、今後のAIインフラプロジェクトはこの基盤の上で展開されるでしょう。また、ブロックチェーン上でこれを行うことにはどのような意味があるのでしょうか?
三、上チェーンの意義?
ブロックチェーンは何と結びついても、最終的には一つの問題に直面します:意味がありますか?昨年の文章で、GameFiの本末転倒を批判し、インフラの発展が過度に先行していると述べました。また、AIに関する前回の数回の記事でも、現段階での実用分野におけるAI x Cryptoの組み合わせにはあまり期待していないと表明しました。結局、物語の推進力は伝統的なプロジェクトにとってますます弱まっており、昨年少数の価格が良好だった伝統的プロジェクトは、基本的に価格に見合った実力を持っている必要があります。AIはCryptoに何ができるのでしょうか?私が以前考えたのは、Agentが意図を実現するための代行、メタバース、Agentが従業員として働くといった比較的一般的なニーズですが、これらのニーズは完全に上チェーンにする必要はなく、ビジネスロジックの観点からも閉じることができません。前回言及したAgentブラウザが意図を実現することは、データのマーク付けや推論能力などのニーズを生み出す可能性がありますが、両者の結びつきはまだ十分に緊密ではなく、計算能力の部分は多方面から見ても依然として中央集権的な計算能力が優位です。
DeFiの成功の道を再考すると、DeFiが伝統的な金融から一杯のスープを分けてもらえたのは、より高いアクセス性、より良い効率、より低いコスト、信頼できる中央集権的な安全性がないからです。この考え方に従って考えると、Agentのチェーン化を支える理由はおそらくいくつかあります。
- Agentのチェーン化がより低い使用コストを実現し、より高いアクセス性と選択肢を達成できるか?最終的にWeb2の大手企業に特有のAI「レンタル権」を一般ユーザーも参加できるようにする;
- 安全性:Agentの最も単純な定義に基づけば、Agentと呼ばれるAIは仮想または現実の世界と相互作用できるべきです。もしAgentが現実に介入したり、私の仮想ウォレットに介入したりできるなら、ブロックチェーンに基づく安全策も一種の必需品といえます;
- Agentがブロックチェーン特有の金融プレイを実現できるか?例えばAMMのLPのように、一般の人々も自動的にマーケットメイキングに参加できるようにする。Agentが計算能力やデータのマーク付けを必要とし、ユーザーが期待できる場合にUの形でプロトコルに投入する。または、異なるアプリケーションシーンに基づくAgentが新しい金融プレイを形成することができる;
- DeFiは現在完璧な相互運用性を持っていないため、ブロックチェーンに結びついたAgentが透明で追跡可能な推論を実現できれば、前回の記事で言及した伝統的なインターネットの巨人が提供するエージェントブラウザよりも魅力的かもしれません。
四、創造性?
フレームワーク型プロジェクトは、将来的にGPT Storeのような起業の機会を提供するでしょう。現在、フレームワークを通じてAgentを発表することは一般ユーザーにとってまだ非常に複雑ですが、私はAgentの構築プロセスを簡素化し、いくつかの複雑な機能の組み合わせを提供するフレームワークが、将来的には優位に立つと考えています。これにより、GPT Storeよりも面白いWeb3の創造経済が形成されるでしょう。
現在のGPT Storeは、伝統的な分野の実用性に偏っており、大部分の人気アプリは伝統的なWeb2企業によって作成されています。また、収入もクリエイターが独占しています。OpenAIの公式説明によれば、この戦略は米国地域の一部の優れた開発者に対してのみ資金支援を提供し、一定の額の補助を与えるものです。
Web3は需要の観点から見ると、まだ多くの未解決の側面が存在し、経済システムの観点からもWeb2の巨人の不公平な政策をより公平にすることができます。さらに、私たちはコミュニティ経済を導入してAgentをさらに改善することもできます。Agentの創造経済は一般の人々も参加できる機会となり、未来のAI MemeはGOATやClankerで発行されたAgentよりもはるかにインテリジェントで面白いものになるでしょう。
参考文献:
2.Bybit:AI Rig Complex(ARC):AIエージェントフレームワーク
3.Deep Value Memetics:4つのCrypto×AIフレームワークの横断的比較:採用状況、利点と欠点、成長の可能性