深く解析するマルチエージェント:Web3とAIは最終的に相互に成就するのか?
もしAIGCがコンテンツ生成のインテリジェントな時代を開いたとすれば、AIエージェントはAIGCの能力を真に製品化する機会を持っています。
AIエージェントは、より具体的なオールラウンドな従業員のようなものであり、人工知能ロボットの初歩的な形態と呼ばれています。人間のように周囲の環境を観察し、意思決定を行い、自動的に行動を取ることができます。
ビル・ゲイツはかつて、「AIエージェントを掌握することが真の成果である。その時、あなたはもはや自らインターネットで情報を検索する必要がなくなるだろう」と述べました。AI分野の権威ある専門家たちも、AIエージェントの将来に大きな期待を寄せています。マイクロソフトのCEOサティア・ナデラは、AIエージェントが人間と機械のインタラクションの主要な方法となり、ユーザーのニーズを理解し、自発的にサービスを提供できると予言しました。ウー・エンダ教授も、将来の職場環境では人間とAIエージェントがより密接に協力し、高効率な作業モデルを形成し、効率を向上させると予測しています。
AIエージェントは単なる技術の産物ではなく、未来の生活と働き方の核心です。
これは、Web3とブロックチェーンが広く議論され始めた頃を思い起こさせます。当時、人々はこの技術の潜在能力を「破壊的」と表現することがよくありました。過去数年を振り返ると、Web3は最初のERC-20やゼロ知識証明から、DeFi、DePIN、GameFiなど他の分野と融合するまでに発展しました。
Web3とAIという二大ホットデジタルテクノロジーを組み合わせることで、1+1>2の効果が生まれるのでしょうか?ますます大規模な資金調達を行っているWeb3 AIプロジェクトは、業界に新しいユースケースのパラダイムをもたらし、新たな実需を創出できるのでしょうか?
AIエージェント:人類最理想のインテリジェントアシスタント
AIエージェントの想像力はどこにあるのでしょうか?ネット上では「大規模言語モデルは蛇を作ることしかできないが、AIエージェントは『王者の栄光』全体を作ることができる」との高評価が広まっています。聞こえは大げさですが、実際には言い過ぎではありません。
エージェントは、国内では通常「知的存在」と翻訳されます。この概念は、1986年に「人工知能の父」ミンスキーが出版した『思考の社会』という本で提唱されました。ミンスキーは、社会の中の特定の個体が協議を経てある問題の解決策を導き出すことができると考え、これらの個体をエージェントと呼びました。長年にわたり、エージェントは人間と機械のインタラクションの基盤であり、マイクロソフトのクリップボードアシスタントClippyからGoogle Docsの自動提案まで、これらの初期形態のエージェントはパーソナライズされたインタラクションの可能性を示しましたが、より複雑なタスクを処理する能力は依然として限られていました。大規模言語モデル(LLM)の登場によって、エージェントの真の潜在能力が発揮されるようになりました。
今年5月、AI分野の権威ある学者ウー・エンダ教授は、アメリカのレッドウッドAIイベントでAIエージェントに関する講演を行い、彼のチームが行った一連の実験を紹介しました:
AIにコードを書かせて実行し、異なるLLMとワークフローの結果を比較しました。結果は以下の通りです:
GPT-3.5モデル:正確率48%
GPT-4モデル:正確率67%
GPT-3.5 + エージェント:GPT-4モデルを上回るパフォーマンス
GPT-4 + エージェント:GPT-4モデルを大きく上回り、非常に優れた結果
確かに。ほとんどの人がChatGPTのようなLLMを使用する際の方法は、プロンプトを入力すると大モデルがすぐに答えを生成するというものであり、自動的にエラーを認識して修正することはありません。
それに対して、AIエージェントのワークフローは次のようになります:
まず、LLMに記事のアウトラインを書かせ、必要に応じてインターネットで内容を検索して調査分析を行い、初稿を出力します。その後、草稿を読み、どのように最適化するかを考え、このプロセスを繰り返し、最終的に論理的に整然とし、エラー率が最も低い高品質な記事を出力します。
AIエージェントとLLMの違いは、LLMとの人間のインタラクションがプロンプトに基づいて行われるのに対し、AIエージェントは目標を設定するだけで、その目標に対して独立して考え、行動を起こすことができる点です。与えられたタスクを詳細に分解し、外部からのフィードバックと自主的な思考に基づいて、自らプロンプトを作成し、目標を達成します。
したがって、OpenAIのAIエージェントの定義は次のようになります:LLMを脳として駆動し、自主的に理解、認識、計画、記憶、ツールを使用する能力を持ち、複雑なタスクを自動化して実行するシステム。
AIが使用されるツールからツールを使用する主体に変わるとき、それはAIエージェントになります。これがAIエージェントが人類最理想のインテリジェントアシスタントとなる理由です。例えば、AIエージェントはユーザーの過去のオンラインインタラクションに基づいて、ユーザーの興味、好み、日常習慣を理解し記憶し、ユーザーの意図を認識し、自発的に提案を行い、複数のアプリケーションを調整してタスクを完了します。
ゲイツの構想のように、将来的には異なるタスクのために異なるアプリケーションに切り替える必要がなくなり、普通の言葉でコンピュータやスマートフォンにやりたいことを伝えるだけで、ユーザーが共有したいデータに基づいて、AIエージェントがパーソナライズされた応答を提供します。
単人ユニコーン企業が現実になりつつある
AIエージェントは、企業が「人間と機械の協調」を中心としたインテリジェントな運営新モデルを構築するのを助けることができます。ますます多くのビジネス活動がAIに委ねられ、人間は企業のビジョン、戦略、重要な道筋の意思決定に集中するだけで済むようになります。
OpenAIのCEOサム・アルトマンがインタビューで述べたように、AIの発展に伴い、私たちは「単人ユニコーン」時代に突入しようとしています。これは、単独の個人が設立し、10億ドルの評価に達する企業を指します。
聞こえは夢物語のようですが、AIエージェントの助けを借りて、この考えは現実になりつつあります。
仮に、今私たちがテクノロジースタートアップを設立するとしましょう。従来の方法では、私はソフトウェアエンジニア、プロダクトマネージャー、デザイナー、マーケティング担当者、営業、財務担当者を雇う必要があります。それぞれが役割を果たしながら、私が調整することになります。
では、AIエージェントを使用した場合、私は従業員を雇う必要すらないかもしれません。
- Devin --- 自動化プログラミング
ソフトウェアエンジニアの代わりに、私は今年大ヒットしたAIソフトウェアエンジニアDevinを使用するかもしれません。彼は私のためにすべてのフロントエンドとバックエンドの作業を完了することができます。
DevinはCognition Labsによって開発され、「世界初のAIソフトウェアエンジニア」と呼ばれています。彼は独立してソフトウェア開発全体を完了し、問題を分析し、意思決定を行い、コードを書き、エラーを修正することができます。開発者の負担を大幅に軽減します。Devinはわずか半年で1.96億ドルの資金調達を行い、評価額は数十億ドルに急上昇しました。投資者にはFounders Fund、Khosla Venturesなどの著名なベンチャーキャピタルが含まれています。
Devinはまだ公開版をリリースしていませんが、最近のWeb2製品Cursorからその潜在能力を垣間見ることができます。Cursorはほぼすべての作業を完了し、シンプルなアイデアを数分で機能的なコードに変換します。指示を出すだけで「楽をする」ことができます。報告によれば、ある8歳の子供がプログラミングの経験が全くないにもかかわらず、Cursorを使ってコード作業を完了し、ウェブサイトを構築したとのことです。
- Hebbia --- 文書処理
プロダクトマネージャーや財務担当者の代わりに、私はHebbiaを選ぶかもしれません。彼は私のためにすべての文書の整理と分析を行います。
Gleanが企業内文書検索に重点を置くのに対し、Hebbia Matrixは企業向けのAIエージェントプラットフォームであり、複数のAIモデルを活用して、ユーザーがデータや文書を効率的に抽出、構造化、分析するのを支援し、企業の生産性を向上させます。印象的なのは、Matrixが一度に数百万件の文書を処理できることです。
Hebbiaは今年7月に1.3億ドルのBラウンドを完了し、a16zがリードインベスターとなり、Google Ventures、ピーター・ティールなどの著名な投資家も参加しました。
- Jasper AI --- コンテンツ生成
ソーシャルメディア運営やデザイナーの代わりに、私はJasper AIを選ぶかもしれません。彼は私のためにコンテンツの生成を行います。
Jasper AIはAIエージェントのライティングアシスタントで、クリエイター、マーケティング担当者、企業がコンテンツ生成プロセスを簡素化し、生産性と創造性を向上させることを目的としています。Jasper AIは、ユーザーが要求するスタイルに基づいて、ブログ記事、ソーシャルメディア投稿、広告コピー、製品説明など、さまざまなタイプのコンテンツを生成できます。また、ユーザーの説明に基づいて画像を生成し、テキストコンテンツに視覚的な補助を提供します。
Jasper AIは1.25億ドルの資金調達を行い、2022年には15億ドルの評価に達しました。統計によれば、Jasper AIはユーザーが生成した単語数が5億を超え、最も広く使用されているAIライティングツールの1つとなっています。
- MultiOn --- ウェブ自動化操作
アシスタントの代わりに、私はMultiOnを選ぶかもしれません。彼は私の日常業務を管理し、スケジュールを設定し、リマインダーを設定し、出張の計画を立て、ホテルを自動的に予約し、ライドシェアを自動的に手配します。
MultiOnは自動化されたウェブタスクAIエージェントで、ユーザーがオンラインショッピングや予約などの個人タスクを完了するのを支援し、個人の効率を向上させたり、日常業務を簡素化して作業効率を向上させたりします。
- Perplexity --- 検索、研究
研究者の代わりに、私はNVIDIAのCEOが毎日使用しているPerplexityを選ぶかもしれません。
PerplexityはAI検索エンジンで、ユーザーの質問を理解し、問題を分解し、コンテンツを検索して統合し、レポートを生成してユーザーに明確な答えを提供します。
Perplexityはさまざまなユーザーグループに適しており、学生や研究者は執筆時の情報検索プロセスを簡素化し、効率を向上させることができます。マーケティング担当者は信頼できるデータを取得してマーケティング戦略を支援できます。
以上の内容はあくまで想像に過ぎませんが、現在のAIエージェントの真の能力とレベルは、各業界のエリート人材を置き換えるにはまだ不十分です。Logenic AIの共同創設者である李博杰が言ったように、現在のLLMの能力はまだ入門レベルであり、専門家レベルには遠く及ばず、現段階のAIエージェントは比較的速く作業を行うがあまり信頼性のない従業員のようなものです。
しかし、これらのAIエージェントはそれぞれの特長を活かし、既存のユーザーが多様なシーンで効率と利便性を向上させる手助けをしています。
テクノロジー企業に限らず、あらゆる業界がAIエージェントの波から利益を得ることができます。教育分野では、AIエージェントが学生の学習進度、興味、能力に基づいてパーソナライズされた学習リソースと指導を提供できます。金融分野では、AIエージェントがユーザーの個人財務を管理し、投資アドバイスを提供し、さらには株価の動向を予測することができます。医療分野では、AIエージェントが医師の病気診断や治療計画の策定を支援します。Eコマース分野では、AIエージェントがスマートカスタマーサービスとして機能し、自然言語処理と機械学習技術を使用してユーザーの問い合わせに自動的に回答し、注文問題や返品リクエストを処理し、顧客サービスの効率を向上させます。
マルチエージェント:AIエージェントの次のステップ
前のセクションでの単人ユニコーン企業の想定では、単一のAIエージェントが複雑なタスクを処理する際に限界に直面し、実際のニーズを満たすことが難しいことがわかりました。一方で、複数のAIエージェントを使用する場合、これらのAIエージェントが異種のLLMに基づいているため、集団的な意思決定が難しく、能力が限られているため、人間がこれらの独立したAIエージェントの間の調整役を果たし、異なるアプリケーションシーンにサービスを提供するAIエージェントを調整する必要があります。これが「マルチエージェント(Multi-Agent)フレームワーク」の台頭を促しました。
複雑な問題は多方面の知識とスキルを融合する必要があり、単一のAIエージェントの能力は限られているため、十分に対応できません。異なる能力を持つAIエージェントを有機的に組み合わせることで、マルチエージェントシステムはAIエージェントがそれぞれの長所を発揮し、相互に補完し合い、より効果的に複雑な問題を解決できるようになります。
これは、実際の作業フローや組織構造に非常に似ています:リーダーがタスクを割り当て、異なる能力を持つ人々が異なるタスクを担当し、各プロセスの結果が次のプロセスに渡され、最終的に最終的なタスク成果が得られます。
実現プロセスにおいては、より低いレベルのAIエージェントがそれぞれのタスクを実行し、より高いレベルのAIエージェントがタスクを割り当て、彼らの完了状況を監視します。
マルチエージェントは、私たち人間の意思決定プロセスを模倣することもできます。問題に直面したときに人に相談するように、複数のAIエージェントも集団的な意思決定の行動を模倣し、より良い情報サポートを提供します。例えば、マイクロソフトが開発したAutoGenはこれを満たしています:
異なる役割のAIエージェントを作成できます。これらのAIエージェントは基本的な対話能力を持ち、受け取ったメッセージに基づいて応答を生成します。
GroupChatを通じて、複数のAIエージェントが参加するグループチャット環境を作成し、このGroupChatには管理者役のAIエージェントが他のAIエージェントのチャット記録、発言者の順序、発言の終了などを管理します。
単人ユニコーン企業の想定に適用すると、マルチエージェントアーキテクチャを使用して、プロジェクトマネージャー、プログラマー、またはスーパーバイザーなど、異なる役割のAIエージェントを作成できます。私たちの目標を彼らに伝え、彼らが自由に考えるようにし、私たちは横で報告を聞くだけで、意見があれば彼らに修正させ、満足するまで続けます。
単一のAIエージェントと比較して、マルチエージェントは次のことを実現できます:
スケーラビリティ:AIエージェントの数を増やすことで、より大規模な問題を処理できます。各AIエージェントがタスクの一部を処理し、システムが需要の増加に応じて拡張できるようにします。
並行性:自然に並行処理をサポートし、複数のAIエージェントが同時に問題の異なる部分に取り組むことで、問題解決を加速します。
意思決定の改善:複数のAIエージェントの洞察を集約することで、意思決定を強化します。各AIエージェントは独自の視点と専門知識を持っています。
AI技術の進歩に伴い、マルチエージェントフレームワークがより多くの業界で大きな役割を果たし、AI駆動のさまざまな新しいソリューションの発展を促進することが期待されます。
AIエージェントの風、Web3に吹く
実験室を出て、AIエージェントとマルチエージェントの道のりは長いです。
マルチエージェントはさておき、現在最も先進的な単一のAIエージェントでさえ、物理的なレベルで必要な計算リソースと計算能力には明確な上限があり、無限に拡張することはできません。極めて複雑で計算量の多いタスクに直面すると、AIエージェントは間違いなく計算能力のボトルネックに直面し、性能が大きく低下します。
さらに、AIエージェントとマルチエージェントシステムは本質的に集中型のアーキテクチャモデルであり、これは高い単一障害リスクを伴います。さらに重要なのは、OpenAI、マイクロソフト、Googleなどの企業が閉じられた大モデルに基づく独占的なビジネスモデルを持っているため、独立した単一のAIエージェントスタートアップの生存環境が深刻に脅かされ、AIエージェントが大規模な企業のプライベートデータを利用してより賢く、より効率的になることができません。AIエージェント間には、本当に価値のあるAIエージェントがより広範なニーズにサービスを提供し、社会に大きな価値を創造できるような民主化された協力環境が必要です。
最後に、LLMと比較してAIエージェントは産業に近いですが、その発展はLLMに基づいており、現在の大モデル競争の特徴は技術的なハードルが高く、資金投入が多く、ビジネスモデルがまだ成熟していないため、AIエージェントは通常、資金調達を得て継続的に更新・改良することが難しいです。
マルチエージェントのパラダイムは、Web3がAIを支援する絶好の視点であり、多くのWeb3開発チームがこれらの分野に研究開発を投入して解決策を提供しています。
AIエージェントとマルチエージェントシステムは通常、複雑な意思決定やタスク処理を行うために大量の計算リソースを必要とします。Web3はブロックチェーンと分散型技術を通じて、分散型の計算力市場を構築し、計算リソースを世界中でより公平かつ効率的に配分・利用できるようにします。Akash、Nosana、Aethir、IO.netなどのWeb3プロジェクトは、AIエージェントの意思決定や推論に計算能力を提供できます。
従来のAIシステムは集中型管理が多く、AIエージェントが単一障害やデータプライバシーの問題に直面することが多いですが、Web3の分散型特性により、マルチエージェントシステムはより分散化され、自律的に運営されます。各AIエージェントは異なるノードで独立して動作し、ユーザーの要求を自主的に実行し、堅牢性と安全性を向上させます。PoS、DPoSなどのメカニズムを通じて、ステークホルダーや委任者に対するインセンティブと罰則メカニズムを構築することで、単一のAIエージェントやマルチエージェントシステムの民主化を促進できます。
この分野では、GaiaNet、Theoriq、PIN AI、HajimeAIが非常に先進的な試みを行っています。
Theoriqは「AI for Web3」にサービスを提供するプロジェクトで、Agentic Protocolを通じてAIエージェントの呼び出しと経済システムを構築し、Web3の開発と多くの機能的なシーンを普及させ、Web3 dAppに検証可能なモデル推論能力を提供することを目指しています。
GaiaNetはノードベースのAIエージェントの作成と展開環境を提供し、専門家やユーザーの知的財産権とデータプライバシーを保護することを出発点とし、集中型のOpenAI GPT Storeに対抗します。
HajimeAIは、AIエージェントのワークフローを実際のニーズに基づいて構築し、意図そのもののインテリジェント化、自動化を目指し、PIN AIが提唱する「AIインテリジェンスのパーソナライズ」に応えます。
同時に、Modulus LabsとORA ProtocolはそれぞれAIエージェントのzkMLとopMLのアルゴリズムの方向で進展を遂げています。
最後に、AIエージェントとマルチエージェントシステムの開発と改良には通常、大量の資金支援が必要ですが、Web3は前置流動性の特性を通じて、有望なAIエージェントプロジェクトが貴重な初期支援を得るのを助けることができます。
SpectralとHajimeAIは、チェーン上でAIエージェント資産を発行する製品構想を提案しました:IAO(Initial Agent Offering)を通じてトークンを発行し、AIエージェントは投資者から直接資金を得ることができ、同時にDAOガバナンスの一員となり、投資者にプロジェクトの発展に参加し、将来の利益を共有する機会を提供します。その中でHajimeAIのBenchmark DAOは、クラウドファンディングとトークンインセンティブの方法を通じて、分散型のAIエージェント評価とAIエージェント資産発行を有機的に結びつけ、Web3を基盤としたAIエージェントの資金調達とコールドスタートのクローズドループを構築することを目指しています。これは非常に新しい試みです。
AIのパンドラの箱はすでに開かれ、そこにいるすべての人は興奮と混乱の中にいます。熱潮の中にあるのは機会なのか暗礁なのか、誰にもわかりません。現在、あらゆる業界はもはやPPT資金調達の時代ではなく、どんなに先進的な技術であっても、実際に実現されなければ価値を持ちません。AIエージェントの未来は長いマラソンであることが確実であり、Web3はこの競争で影を潜めないように確保しています。