Web3版ChatGPT製品レビュー:理解能力は基本的に合格だが、全体的には満足できない
著者:bayemon.eth, ChainCatcher
昨年末にchatGPTが大ヒットした後、Web3分野の「ファッショニスタ」たちは「AI + Web3」の無限の可能性を探求し始めました。完全な知識体系を持つ伝統的な業界と比べて、まだ完全な学習メカニズムが形成されていない新しい世界であるWeb3は、chatGPTのように重要な瞬間にインスピレーションを与え、迅速に疑問に答える役割がより必要とされているようです。
現在、「AI + Web3」のホットトピックは、Worldcoinなどのアイデンティティ認識ネットワーク、Telegram Botの物語であるUnibot、Lootbot、そしてzkMLなど、将来的にスケーリングソリューションとさらなる連携が期待される技術に集中していますが、コミュニティにはすでにMinMax、QnA3、およびWeb3 AnalyticsなどのAI駆動の対話ボットが登場しており、Web3における知識伝達の欠如に気づいたチームが存在し、Web3専門分野のchatGPTを目指していることを証明しています。本稿では、上記の3つのWeb3対話ボットを評価し、理解、生成、学習、最適化などの能力を多角的に比較し、使用体験と知能の程度を総合的に評価します。
評価指標
評価の第一歩は、新しいフォルダーを作成し、一連の評価指標を設計することです。インタラクティブモデルにおいて、ユーザー体験はインタラクションプロセスとモデルの知能の程度から来ます。インタラクション体験は主にUIデザインに焦点を当て、モデルの知能の程度の測定は以下のいくつかの側面を含みます:
- 理解 & 生成能力:
- ユーザーが入力した質問を正確に理解し、文脈に関連付けて自然で流暢かつ論理的な返信を生成できること
- 回答の中で明確で簡潔な表現をし、問題解決指向の質問に対して有用な解決策や提案を提供できること
- 有用な解決策や提案を提供できること
- 学習 & インタラクション最適化能力:
- ユーザーが提供した資料やデータソースを通じて、正確な情報や回答を要約し提供できること
- 特定の業界に対する理解や背景知識を継続的に学習し向上させることができること
- ユーザーとのインタラクションから推論し、インタラクションを通じて回答を改善できること
- ユーザーのフィードバックや行動に基づいて最適化し、より良いユーザー体験を提供できること
- 多言語処理:
- 自然言語や機械言語を含む多様な言語の回答を理解し応答できること
- 明確で正確かつ言語習慣に合った回答を提供できること
インタラクション体験
MinMax
直感的に感じるのは、デフォルトの黒い背景に緑の文字で、UIチームが「Keep the bar green to keep the code clean」を信じているのか(あるいは単に目に優しいからか)ということです。人間の目は緑に対して非常に敏感で、MinMaxのUIでは最初に目に入るのはPopular QueriesとPopular Questionsのモジュールで、検索量の多い概念や質問を直接ユーザーに提示しています。これは「群衆心理」を利用したもので、クリックすると関連する概念や質問の画面に一発でジャンプします。
ただし、これらの2つのモジュールのワードクラウドのデザインは、検索量に基づいてフォントサイズを変更し、検索回数の多い概念や質問を強調している可能性がありますが、現在のユーザーが少ないため、または検索回数が均一すぎるため、ワードクラウドにはより直感的な比較が示されていません。ワードクラウドの利点は、今後の量の増加や検索の差別化が強化された後に初めて現れるでしょう。
結局のところ、Minmaxの位置付けは検索エンジンであるため、ロボットの強調はホームページの小さなボックスに限られています。
チャットボットのインターフェースは、依然として伝統的な黒緑の配色で、自動生成された挨拶メッセージが表示され、いくつかの「ホットサーチ」も添付されています。要するに、MinMaxのチャットインターフェースは非常にシンプルで、検索エンジンとしての位置付けのため、チャットの過程で情報の連想を楽しむのが好きです。
さらに、MinMaxは直接メール、Google、Twitter、またはFacebookでログインでき、ユーザーにウォレットを持つことを要求しないため、比較的初心者に優しいです。
Web3 Analytics
MinMaxと比較して、Web3 Analyticsのデザインは純粋なチャットボットであり、ホームページはチャットインターフェースで、黒と青の配色がクラシックなVisual Studioを思い起こさせます。左側のサイドバーには過去の会話があり、右側のフィードバック機能はまだ開発中です。過去の会話は言うまでもなく、フィードバック部分がどのように表示されるかは引き続き注目に値します。
Web3 Analyticsが自動生成した挨拶メッセージは、ホットサーチの用語に加えて、Telegram、DiscordなどのソーシャルメディアやプロジェクトトークンW AIを強調しています。TelegramとDiscordの強調は、Web3 AnalyticsもTelegram/Discord Botの物語の参加者であるためです。注目すべきは、チームが「Train AI to Earn」という概念を導入し、ロボットに質問することでプロジェクトトークンを取得できることです。トークンに関与しているため、ウォレットログインが必要で、ログインしていない状態でロボットに質問すると、最大3つの質問の後に、ウェブページはログインしてW AIを取得する必要があると継続的に通知し、ログインしない限り使用を続けることができません。
QnA3
上記の2つのロボットの濃厚なプログラマーのスタイルとは異なり、QnA3はこのピンクと紫の配色で直接ドーパミンを引き起こします。ホームページにはホットサーチの質問が表示され、「Vote to Earn」機能が導入されています。ポイントと将来のトークン交換に関与するため、QnA3はユーザーにウォレットログインを要求します。現在、ポイントを取得する方法は2つあります:
- Vote to Earn:成功裏に上位3つの質問を押さえたユーザーはポイントを獲得できます。
- Ask to Earn:毎日の質問タスクを完了することで、プロジェクトポイントを交換できます。
現在、QnA3はBNB Chainに展開されており、ポイントを受け取るにはGasを支払う必要があり、後にプロジェクトトークンのエアドロップと交換できます。また、トークンを発行するプロジェクトであるため、QnA3へのログインもウォレットアドレスを通じて行う必要があり、将来的なトークノミクスの現金化のための操作を容易にします。
さらに、QnA3のホームページには速報オプションがあり、「巨鯨が質問している」ことでユーザーを引き寄せ、流量を促進し、ページに進むように誘導します。
ただし、簡体字モードでは、「巨鯨が質問している」リンクをクリックすると、時々中国語と英語が混在して表示され、実際にはさらなる最適化が必要です。
モデルの知能度評価
注:QnA3は対話の過程でKnowledge GraphとWeb3 Newsの2つの部分の回答があり、前者は知識グラフからデータベースの情報を取得し、後者は関連する相談の統合であるため、モデルの知能度評価ではQnA3が2つのロボットの回答内容を含むことになります。
1. 理解 & 生成能力
- 理解能力について:
初心者にとって、Web3に触れる初日にはさまざまな資料からコンセンサスメカニズムやアルゴリズムを理解するかもしれません。しかし、時間が経つと、頭の中にはPoWとPoSしか残らないかもしれません。この機会に復習してみましょう。
まずはchatGPT先生の言うことを見てみましょう:
MinMax
Web3 Analytics
QnA3
コンセンサスアルゴリズムに関する回答を見てみると、一見して3つのロボットは合理的な説明を提供しており、明確に箇条書きされていますが、よく見るとQnA3のKnowledge Graphは混乱している可能性があります。これは知識グラフのデータベース内でのインデックスやトラバースの問題かもしれません。PoWとPoSに関する関連内容が2回出力されています。
具体的な内容に関しては、3者の一般的なコンセンサスアルゴリズムの紹介は基本的にPoS、PoW、D PoS、PBFT(ビザンチン耐障害)を網羅していますが、具体的な説明の内容はやや薄いです。たとえば、MinMaxのPBFTに関する説明は「PBFTはビザンチン耐障害アルゴリズムであり、コンセンサスを達成することでビザンチン障害を処理します」となっています。これは「トマトと卵を使って炒める料理が何か」と尋ねたときに「トマトと卵を使った料理です」と答えるようなもので、ユーザーは文字通りの意味以外の情報を得られません。
正確性はモデルのトレーニングプロセスで重要ですが、「質問に対する答えを避ける」ことも最終目的の一つです。しかし、AIの回答が時には「正確さ」を追求しすぎて「無駄なこと」をたくさん出力することもあり、これは深刻なモデルの過剰適合現象と見なされるべきです。したがって、ここでは今後のアルゴリズムのさらなる最適化において、正確な測定に加えて、個性化や差別化された回答の指標を追加することを検討することができます。
- 文脈の関連付けについて:
対話はここまで比較的正常ですが、ロボットに前の質問で言及した最初のコンセンサスアルゴリズム(PoW)を具体的に説明してもらうように追求したところ、私が想定したchatGPTからの回答は:
MinMax
この問題で加点できる唯一のAIで、回答は非常に論理的で、PoWの応用、核心思想、コンセンサスプロセス、長所と短所、そして短所の改善について言及しています。
Web3 Analytics
このロボットはWeb3とは全く関係のない回答を提供し、チームに国内外の名門校のメンバーが含まれているのか疑問に思い始めました……
QnA3
Web3 Analyticsが生成したWeb3とはほとんど無関係な内容と比較して、QnA3の2つのモデルが生成した内容は少なくともWeb3に関連していますが、「第一の」という私の質問の意味を完全に理解しているわけではなく、Knowledge Graphは言語が混乱し、英語の内容を出力しました。
Web3 Newsは質問の意図を理解しましたが、「第一の」が指すものを明らかに理解しておらず、「第一のビットコインはビットコインを指す」といった無駄な文学も発生しました。
要するに、文脈の関連付け能力に関しては、現在のところ3種類の対話AIの中で、合格できるのはMinMaxだけです。
- 生成能力について
ここではテキスト生成能力を考慮し、まずAIにPoWとPoSの違いを簡潔に説明させ、その後AIに表形式で出力させます。
chatGPT
注:chatGPTはここでも前半の暗示に気づいていません。
MinMax
表は異なる視点から両者の違いを簡潔に説明しており、対話の終了前に関連リソースのリンクを追加して、ユーザーが興味のある部分をさらに理解できるようにしています。
しかし、MinMaxは私の前半の暗示を理解せず、概括的な説明を提供しませんでした。
Web3 Analytics
Web3 Analyticsは前半の文を理解し、PoWとPoSの違いを簡潔に出力し、情報源を非常に厳密に注記しました。
表の部分では、内容的にWeb3 Analyticsは商戦の大劇を想像したようで、PoSは直接株式や年齢に基づいてマイナーを選ぶメカニズムになっていますが、表自体は少し質素すぎます。
QnA3
QnA3は確かに3者の中で理解と表出力において相対的に最も優れています。
表の要点は完全で、要約もあり、内容的には4つの回答の中で最も完全ですが、Knowledge Graphがなぜ試験用紙で英語で答えることに熱心なのかは分かりません。
QnA3のWeb3 Newsの回答は、相対的に見ていくつかのロボットの中で最も要件に合致しており、まず両者の違いを説明し(さらには分点を通じて、回答をより整理されたものに見せています)、異なる側面に関する対照表を出力しました。
したがって、機能的生成においてはQnA3とMinMaxを優先的に考慮することができます。表は基本的にスクリーンショットを取って使用できますから。
2. 学習能力
AIモデルの学習能力を判断するには、まず現在のデータベースに存在しない「新しい知識」を見つける必要があります。しかし、繰り返し対話を通じて、3つのAIモデルが同時に回答できない問題を見つけられませんでした。したがって、MinMaxとWeb3 Analyticsの学習能力を判断するための質問はNFTに関連する新しい基準ERC-6551であり、ERC-6551を理解し、一定の詳細を出力できるQnA3に対しては、MakeDAOが今日発表した最新のガバナンス提案に関する質問です。
MinMax
相応の情報を提供した後、MinMaxはそこから情報を統合し、ERC-6551の核心思想に触れる内容を出力できます。技術的な革新にはあまり関与していませんが、ERC-6551が何であるか全く知らず、基本的な内容を迅速に理解したい初心者にとっては、内容は十分です。
ついでにMakeDAOの質問もしました。
要するに、リアルタイムデータの取得やトレーニングセットの有効性を維持することはできませんが、「学習」の観点から見ると、MinMaxは確かに「学習成果」を明確かつ論理的に示すことができます。
Web3 Analytics
ERC-6551標準の具体的な内容を提供しても、Web3 Analyticsはそれを要約することができず、ERC-6551の紹介部分を出力した拡張記事を出力しました。重複率は80%に達します。
同様に、Web3 AnalyticsがMakerDAOの最新提案に関する回答を貼ります:
見ての通り、すでにデータセットに含まれている情報に対して、Web3 Analyticsはそれを分点で出力する能力を持っています。したがって、学習能力に関しては、WAチームはAIがユーザーが提供する外部情報を要約し出力する能力を最適化する必要があるかもしれません。
QnA3
おそらく週末のデータセットの更新のため、QnA3のWeb3 Newsは先週金曜日に発表されたMakerDAOの最新提案を出力できるようになりましたが、Knowledge Graphの情報は今年の5月にとどまっています。
MakerDAOの最新提案に関する関連リンクを提供した後、Knowledge Graphは提案の中で最も重要なDSR調整問題を出力しませんでした。したがって、Knowledge Graphの学習能力はさらに最適化が必要です。
要するに、データセットの更新はWeb3技術の進化の速度に追いつかないかもしれませんが、外部知識の学習能力に関しては、MinMaxを優先的に考慮できます。Web3 AnalyticsとQnA3は比較的効率的な情報の進化を持っていますが、全体的な学習能力は向上の余地があります。
3. 多言語処理能力
- 自然言語
現在のグローバル化の背景において、Web3の世界が障壁のない異文化コミュニケーションを求めるためには、AIが一定の多言語コンテンツの創作と情報検索能力を持つ必要があります。
中国語と英語に関して言えば、MinMaxとWeb3 Analyticsは問題に無障害で回答でき、その生成された内容も言語習慣に合っています。 一方、QnA3のKnowledge Graphは、英語の内容が3つのモデルの中で最も質が高いですが、中国語の質問に英語で回答するのは確かに適切ではありません。また、時には中国語で回答できる場合でも、内容が直訳的すぎて中国語の言語習慣に合わないことがあります。したがって、内容が優れたQnA3のKnowledge Graphにとって、他の言語への互換性をさらに高めることは、採用率を向上させるための実行可能な手段かもしれません。
- 機械言語
簡単にまとめると、AIモデルはWeb3erの日常業務において:翻訳器 + デバッガーです。
自然言語のテストがある種の状況でAIモデルの翻訳器としての適格性を測定した場合、この部分では3者が適格なデバッガーであるかどうかを確認します。ここでは、非常にシンプルですが、Solidityの初心者にとって非常に間違いやすいコードを選びます:
簡単に説明すると、コードの中でエラーが発生している点はpureキーワードがチェーン上の状態を変更できないことです。言い換えれば、pureサフィックスを持つ関数は「純粋に」見るだけで、変数を変更することはできません。つまり、5行目でnumber + 1の操作は実現不可能です。注:Solidity初心者の立場から見たデバッガーの要求------モデルはエラーのある場所を指摘し、相応の説明をし、コードを修正する必要があります。
GPT先生、サンプルを見せてください:
MinMax
私:デバッグを手伝ってもらえますか?
MinMax:できます、私は装備しています。
まるで私がコードを見た瞬間にクラッシュする脳のようで、MinMaxはデバッグの過程で直接エラーを報告し、対話を終了しました。さらに、MinMaxが表示したコードボックスは明らかに修正が必要で、外部学習と自然言語交流に精通しているMinMaxの唯一の短所が見つかりました。
Web3 Analytics
Web3 Analyticsは理解能力が再び減点され、主語の省略権を失いました。
特定の対話ではあまり賢く見えませんが、Web3 Analyticsはデバッグに関しては満足のいく能力を持っています。基本的な概念やエラーの出所を説明し、修正されたコードを提供し、最後にエラーコードが契約の展開において現実的な意味を持つことを簡単に説明しました。まあ、主語の省略権を奪ったことは一時的に許しましょう。
QnA3
デバッグの観点から見ると、QnA3は問題なく、エラーの場所を指摘し、相応の修正を行い、完全にこの部分の要求を満たしています。唯一の欠点は、コードブロックのフォントの色と背景が非常に近いため、UIの方向でさらなる改善が必要かもしれません。
PS:しかし、これまで評価してきた中で、QnA3のWeb3 Newsは部分的な問題の回答しかできず、当事者はWeb3 Newsの回答を引き起こす条件を理解していないようです。また、Knowledge Graphが言及した最初の問題については、契約が簡単であればconstructorを強制的に書く必要はないと思います(間違っていたら訂正してください)。
要するに、MinMaxというデバッグが演技である選手を除いて、Web3 AnalyticsとQnA3はそれぞれ小さな欠陥があるものの、全体的には合格なデバッガーの資格を持っています。しかし、小さな欠点があるなら、なぜ直接chatGPTを使わないのでしょうか?
小結
Web3対話AIモデルは基本的に一定の理解、生成、学習能力を備えており、多言語の回答を処理し、プログラマーの良きパートナーとして機能します。これらの「基本的な素養」は、現在の基礎概念を理解し、関連する知識フレームワークをさらに知りたい初心者にとって、Web3対話AIが参考となる論理フレームワークを生成できることを意味します。
しかし、すでに分野で深く掘り下げている人々にとって(おそらくこの部分の人々は対話ロボットを使って問題を解決しようとは思わないでしょう)、AIの機能は表の生成や要約などの「細かい作業」に限られているようです。内容の増加や個性化の観点からは、さらなる参考を提供することができません。要するに、個人的には人々のWeb3分野に対する認識が徐々に高まるにつれて、一定の臨界点に達した後、モデルが提供できる内容の増加は徐々に0に近づくと考えています。
注目すべきは、この記事で評価したMinMax、Web3 Analytics、QnA3の他に、同様のAI対話モデルであるSuperSightが現在ベータテストを行っていることです。同様のツールの増加は、一方で「AI + Web3」の融合トレンドに対する市場の重視とユーザーのニーズへの考慮を示し、他方でプロジェクト側にとっては、今後製品の特徴を作り出し「輪を再発明する」現象を避けることも製品のイテレーション計画に組み込むべきです。しかし、現在の技術レベルと全市場において、Web3 AI対話モデルの実用性と汎用性はまだ強化の余地があり、大規模な応用は人工知能技術と機械学習アルゴリズムがさらに強化され、Web3 + AIの深い融合が実現する未来を待つ必要があるかもしれません。