インテリジェントエージェント時代:AIとクリプトの交錯と共生
著者: YBB Capital Researcher Zeke
一、新しいものへの注意の変化から始まる
過去一年間、アプリケーション層の物語が途切れ、インフラの爆発的な成長に追いつけない中で、暗号分野は徐々に注意資源を奪い合うゲームに変わっていきました。Silly DragonからGoat、Pump.funからClankerまで、注意の新しさと古さの変化がこの争奪戦を内側から巻き込んでいます。最も陳腐な目を引く収益化から始まり、急速に注意の需要者と供給者が統一されたプラットフォームモデルへと移行し、シリコンベースの生物が新しいコンテンツ供給者となりました。Meme Coinの奇妙な媒体の中で、ついに個人投資家とVCが合意に達する存在が現れました:AIエージェントです。
注意は最終的にはゼロサムゲームですが、投機は確かに物事の野蛮な成長を促すことができます。私たちはUNIに関する記事の中で、ブロックチェーンの黄金時代の始まりを振り返りました。DeFiの急成長の原因は、Compound Financeが始めたLPマイニングの時代にあり、Apyが千や万のさまざまなマイニングプールの中を出入りすることが、その時期のチェーン上での最も原始的なゲームの方法でしたが、最終的にはさまざまなマイニングプールが崩壊しました。しかし、ゴールドマイナーの狂乱の流入は確かにブロックチェーンに前例のない流動性をもたらし、DeFiは最終的に純粋な投機を脱却し、支払い、取引、アービトラージ、ステーキングなどのさまざまな面でユーザーの金融ニーズを満たす成熟したトラックを形成しました。そして、AIエージェントは現段階でもこの野蛮な段階を経験しており、私たちが探求しているのは、CryptoがどのようにAIとより良く融合し、最終的にアプリケーション層が新しい高地に到達するかです。
二、エージェントはどのように自律的に行動するか
前回の記事で、AI Memeの起源であるTruth TerminalとAIエージェントの未来について簡単に紹介しましたが、この記事ではまずAIエージェント自体に焦点を当てます。
まず、AIエージェントの定義から始めましょう。エージェントはAI分野では比較的古いが定義が不明確な用語であり、主に自律性(Autonomous)を強調しています。つまり、環境を感知し反応することができるAIはすべてエージェントと呼ばれます。現在の定義では、AIエージェントはより知能的な存在に近く、大規模モデルに人間の意思決定を模倣するシステムを設定することを意味します。このシステムは学術界ではAGI(汎用人工知能)への最も有望な道と見なされています。
初期のGPTバージョンでは、大規模モデルが人間に似ていることを明確に感じることができましたが、多くの複雑な問題に対する回答では、大規模モデルはしばしば似て非なる答えしか出せませんでした。本質的な理由は、その当時の大規模モデルが確率に基づいており、因果関係が欠如していたこと、さらに人間が持つ道具の使用、記憶、計画などの能力が欠けていたためです。AIエージェントはこれらの欠陥を補うことができます。したがって、次のような公式で要約できます。AIエージェント(エージェント)=LLM(大規模モデル)+ Planning(計画)+ Memory(記憶)+ Tools(道具)。
プロンプト(Prompt)に基づく大規模モデルは、静的な人間のようであり、入力することで初めて生命を持ちます。エージェントの目標は、よりリアルな人間になることです。現在、業界のエージェントは主にMetaがオープンソースしたLlama 70bまたは405bバージョン(両者はパラメータが異なる)の微調整モデルに基づいており、記憶やAPI接続ツールの使用能力を備えています。他の面では、人間の助けや入力(他のエージェントとの相互協力を含む)が必要な場合があります。そのため、現在の業界の主要なエージェントはKOLの形式でソーシャルネットワーク上に存在しています。エージェントをより人間らしくするためには、計画と行動能力を接続する必要があり、計画の中のサブ項目である思考チェーンが特に重要です。
三、思考チェーン(Chain of Thought, CoT)
思考チェーン(Chain of Thought, CoT)の概念は、2022年にGoogleが発表した論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」に最初に登場しました。この論文では、一連の中間推論ステップを生成することでモデルの推論能力を強化し、モデルが複雑な問題をよりよく理解し解決するのを助けることができると指摘しています。
典型的なCoTプロンプトは、次の3つの部分で構成されています:指示が明確なタスクの説明、論理的根拠、タスク解決のための理論的基盤または原理の例、具体的な解決策の提示。このような構造化された方法は、モデルがタスクの要求を理解し、論理的推論を通じて徐々に答えに近づくのを助け、問題解決の効率と正確性を向上させます。CoTは、数学問題の解決やプロジェクト報告書の作成など、深く分析し多段階の推論を必要とするタスクに特に適しています。単純なタスクでは、CoTは明確な利点をもたらさないかもしれませんが、複雑なタスクに対しては、モデルのパフォーマンスを大幅に向上させ、段階的な解決戦略を通じてエラー率を減少させ、タスクの完了品質を向上させます。
AIエージェントを構築する際、CoTは重要な役割を果たします。AIエージェントは受け取った情報を理解し、それに基づいて合理的な意思決定を行う必要があります。CoTは秩序ある思考方法を提供することで、エージェントが入力情報を効果的に処理し分析し、解析結果を具体的な行動指針に変換するのを助けます。この方法は、エージェントの意思決定の信頼性と効率を高めるだけでなく、意思決定プロセスの透明性を向上させ、エージェントの行動をより予測可能で追跡可能にします。CoTはタスクを複数の小さなステップに分解することで、エージェントが各意思決定ポイントを詳細に考慮し、情報過多による誤った意思決定を減少させるのを助けます。CoTはエージェントの意思決定プロセスをより透明にし、ユーザーがエージェントの意思決定の根拠を理解しやすくします。環境との相互作用の中で、CoTはエージェントが新しい情報を学び続け、行動戦略を調整することを可能にします。
CoTは効果的な戦略として、大規模言語モデルの推論能力を向上させるだけでなく、より知的で信頼性の高いAIエージェントの構築において重要な役割を果たしています。CoTを利用することで、研究者や開発者は複雑な環境に適応し、高度な自律性を持つ知的システムを創造することができます。CoTは実際のアプリケーションにおいてその独自の利点を示し、特に複雑なタスクを処理する際には、タスクを一連の小さなステップに分解することで、タスク解決の正確性を向上させ、モデルの説明可能性と制御性を強化します。この段階的な問題解決の方法は、複雑なタスクに直面した際に情報が多すぎたり複雑すぎたりすることによる誤った意思決定を大幅に減少させることができます。同時に、この方法は全体の解決策の追跡可能性と検証可能性を向上させます。
CoTの核心的な機能は、計画、行動、観察を相互に結びつけ、推論と行動の間のギャップを埋めることにあります。この思考モデルは、AIエージェントが予測される異常事態に対して効果的な対策を講じることを可能にし、外部環境との相互作用の中で新しい情報を蓄積し、事前に設定された予測を検証し、新しい推論の根拠を提供します。CoTは、AIエージェントが複雑な環境で効率的に作業を維持するための強力な精度と安定性のエンジンのようなものです。
四、正しい偽需要
CryptoはAI技術スタックのどの側面と結びつくべきなのでしょうか?昨年の記事では、計算力とデータの非中央集権化が小企業や個人開発者がコストを削減するための重要なステップであると考えましたが、今年Coinbaseが整理したCrypto x AIの細分化された分野では、より詳細な区分が見られました:
(1)計算層(AI開発者にGPUリソースを提供することに特化したネットワーク);
(2)データ層(AIデータパイプラインの非中央集権的なアクセス、編成、検証をサポートするネットワーク);
(3)ミドルウェア層(AIモデルまたはエージェントの開発、展開、ホスティングをサポートするプラットフォームまたはネットワーク);
(4)アプリケーション層(オンチェーンAIメカニズムを利用したユーザー向けの製品、B2BまたはB2Cを問わず)。
この4つの層の中で、それぞれの層には壮大なビジョンがあり、その目標は要約すると、シリコンバレーの巨人がインターネットを支配する次の時代に対抗することです。昨年私が言ったように、私たちは本当にシリコンバレーの巨人が計算力やデータを独占的に管理することを受け入れなければならないのでしょうか?彼らが独占するクローズドソースの大規模モデルは、その内部がブラックボックスであり、科学は今日の人類が最も信じる宗教として、未来の大規模モデルが答えるすべての言葉は多くの人々によって真実と見なされるでしょうが、この真実はどのように検証されるのでしょうか?シリコンバレーの巨人の考えに従えば、エージェントが最終的に持つ権限は想像を超えるものになるでしょう。例えば、あなたの財布の支払い権、端末の使用権、どのようにして人が悪意を持たないことを保証するのでしょうか?
非中央集権化は唯一の答えですが、時には合理的に考慮する必要があるのではないでしょうか?これらの壮大なビジョンの支払い者はどれほどいるのでしょうか?過去には、商業的な閉ループを考慮せずに、トークンを通じて理想化による誤差を補うことができました。しかし、現在の状況は非常に厳しいです。Crypto x AIは現実の状況を考慮して再設計する必要があります。例えば、計算層が性能損失と不安定な状況で供給の両端をどのようにバランスさせるか、中央集権的なクラウドの競争力を実現するために。データ層のプロジェクトにはどれほどの実際のユーザーがいるのか、提供されるデータの真実性と有効性をどのように検証するのか、どのような顧客がこれらのデータを必要としているのか?他の二つの層も同様です。この時代には、見た目が正しい偽需要がそれほど多く必要ではありません。
五、MemeはSocialFiを超えた
私が最初の段落で言ったように、Memeは超高速でWeb3に適合したSocialFiの形態を生み出しました。Friend.techはこのラウンドのソーシャルアプリケーションの第一弾として登場しましたが、残念ながら急ぎすぎたトークン設計に敗れました。Pump.funは純粋なプラットフォーム化の実現可能性を証明しました。トークンを作らず、ルールも設けず、注意の需要者と供給者が統一され、プラットフォーム上でミームを投稿したり、ライブ配信をしたり、トークンを発行したり、コメントしたり、取引したりすることができ、すべてが自由です。Pump.funはサービス料のみを徴収します。これは現在のYouTubeやInstagramなどのソーシャルメディアの注意経済モデルと基本的に一致していますが、料金の対象が異なり、Pump.funはよりWeb3的な遊び方をしています。
BaseのClankerは集大成者であり、エコシステムが自ら手がけた統合エコシステムの恩恵を受けています。Baseには自社のソーシャルDappがあり、完全な内部の閉ループを形成しています。エージェントMemeはMeme Coinの2.0形態であり、人々は常に新しいものを求めています。Pump.funは今ちょうど風口に立っており、トレンドから見ると、シリコンベースの生物の妄想が炭素ベースの生物の低俗なミームを置き換えるのは時間の問題です。
私はBaseについて何度も言及してきましたが、毎回異なる内容です。タイムラインから見ると、Baseは決して先発者ではありませんが、常に勝者です。
六、エージェントは他に何になれるのか?
実務的な観点から見ると、エージェントは今後長い間非中央集権化されることは不可能です。従来のAI分野におけるエージェントの構築を考えると、それは単純な推論プロセスの非中央集権化やオープンソースでは解決できない問題です。さまざまなAPIを接続してWeb2のコンテンツにアクセスする必要があり、その運用コストは非常に高いです。思考チェーンの設計や多エージェントの協力は通常、人間を媒介として依存しています。私たちは適切な融合形態が現れるまで、非常に長い移行期間を経ることになるでしょう。おそらくUNIのように。しかし、前回の記事と同様に、私はエージェントが私たちの業界に大きな衝撃を与えると感じています。Cexが私たちの業界に存在するように、不正確ではあるが非常に重要です。
スタンフォードとマイクロソフトが先月発表した「AIエージェントのレビュー」では、エージェントが医療、スマートマシン、仮想世界での応用について大量に記述されています。この論文の付録には、すでに多くのGPT-4Vがエージェントとしてトップクラスの3Aゲーム開発に参加している実験ケースが存在しています。
それと非中央集権化の結びつきの速度を強く求める必要はありません。私はむしろ、エージェントがまず補完すべきパズルは、ボトムアップの能力と速度であることを望んでいます。私たちは多くの物語の廃墟や空白のメタバースを埋める必要があります。適切な段階で、エージェントを次のUNIにする方法を考えましょう。
参考資料
大規模モデル"涌現"の思考チェーン、究竟是一种什么能力? 著者:脳極体
一文で理解するエージェント、大規模モデルの次のステップ 著者:LinguaMind