IOSG:オンチェーンデータ分析プラットフォームの現状と展望
著者:Yang、IOSG Ventures
"数"の中に黄金の家があり、チェーン上のデータには無限のアルファが潜んでいます。私たちがスマートマネーの動向に従い、NFTパラダイスでトレンドNFTを探し続け、StepNの毎日の新しい靴の鋳造データを調べるとき、これらのデータがどのようにして得られるのか、興味はありませんか?多くのチェーン上データ分析プラットフォームと複雑な機能に直面して、あなたは自分に最も適したプラットフォームを探し続けていますか?
1. 背景紹介
チェーン上のエコシステムがますます繁栄する中で、DeFi取引、貸付、NFTの鋳造、取引など、ユーザーの行動は直接透明にチェーン上に記録されています。これらのチェーン上の行動データは、チェーン上の価値の流れに対応しており、これらのデータの分析とその分析から得られる洞察や見解は非常に価値があります。Nansen、Token Terminal、Dune Analytics、Footprint Analytics、flipsidecrypto、glassnode、Skewなどのチェーン上データ分析プラットフォームは、これらの増大する需要に応じて、個人および機関ユーザー向けにやや異なる焦点を持つ製品を提供しています。
この記事では、まずチェーン上データ分析プラットフォームの背後にあるデータアーキテクチャを簡単に説明し、読者にこれらのチェーン上データ分析結果がどこから来て、どのように得られるのかを伝えます。その後、データの豊富さ(カバーするブロックチェーンの数)、データの粒度、データの遅延、プラットフォームの使いやすさ、クエリの自由度などの観点から、読者に市場の主流の個人ユーザー向けデータ分析プラットフォームを整理します。最後に、Web3の未来のチェーン上データのインデックス、クエリ、分析についての少しの想像を共有します。
2. チェーン上データ分析プラットフォームのデータアーキテクチャ紹介
ブロックチェーンはすべての原始的な取引データを記録していますが、チェーン上のデータ自体は公開され透明です。しかし、私たちが「過去24時間のUniswapの取引量はどれくらいですか?」や「現在、BAYCの何パーセントの保有者が同時に少なくとも1つのMoonbirdsを持っていますか?」などの質問をすると、チェーン上の原始データは私たちに答えを提供できません。私たちはインデックス(indexing)、処理(processing)、ストレージ(storage)などの一連のデータ取り込み(ingestion)プロセスを経て、提起された質問に応じて対応するデータを集約計算する必要があります。
直接ブロックチェーンをクエリして問題の答えを得るのは非常に時間がかかり、労力がかかります。チェーン上のデータを迅速に検索できるようにするために、現在の主流のチェーン上データ分析プラットフォームは、インデックスされた原始的なチェーン上データを一連の処理を経て、プラットフォームが更新および管理するデータウェアハウス(data warehouse)に保存します。ユーザーがNansenでスマートマネーの取引動向を追跡したり、Dune Analyticsで視覚化分析を確認したりする際、ユーザーがいわゆる「チェーン上データ」をクエリしているのは、実際にはプロジェクト側が中央集権的に制御するデータベースをクエリしているのです。
チェーン上データ分析プラットフォームのデータウェアハウスアーキテクチャは大体以下のようになります:
データ収集層:プラットフォームはブロックチェーンノードから原始的なチェーン上データを取得し、一部のプラットフォームは第三者から提供されたデータソースを受け入れ、他のプラットフォーム(例:Footprint Analytics)はユーザーがオフチェーンデータをアップロードして最終的なデータ分析を補助することをサポートしています。
データ処理層:各プラットフォームは原始データをストリーミング処理またはバッチ処理の方法でデータ抽出、変換、ロードを行います。ストリーミング処理では、リアルタイムの原始データが継続的に入力され、持続的に処理されるため、通常はデータ遅延が低く、分析結果のタイムリーさが高くなります。一方、バッチ処理はデータ遅延がやや高く、分析結果のタイムリーさがやや低くなりますが、大容量のデータ処理に適しています。
データストレージ層:処理されたデータは、プラットフォーム側が事前に定義した形式に従ってデータセットの各データテーブルに保存され、後で使用されます。
データ統合層:保存されたデータは集約計算されます。計算は事前に設定された指標に基づいて行われることもあれば、定期的に(periodic)または設定された条件に基づいてトリガーされる(event-driven aggregation)こともあります。
データ分析層:計算結果はリアルタイムで報告、出力されます。個人ユーザーにとって、私たちは主にデータ分析層でチェーン上データ分析プラットフォームと対話します。たとえば、Nansenが提供するビジネスインテリジェンスレポートインターフェース、Dune AnalyticsやFootprint Analytics上の多くの視覚化グラフ、そして一部のプラットフォームが提供するAPIインターフェースなどです。
各プラットフォームは、自分のデータウェアハウスを構築し維持するために異なるアプローチを採用しています。たとえば、Nansenは第三者のGoogle Cloud Platformを利用してデータウェアハウスの構築と維持を行っています。
(https://www.nansen.ai/post/nansen-and-google-cloud-empower-web3-investors-with-high-quality-real-time-market-intelligence)
一方、Dune Analytics、Footprint Analytics、Token Terminalなどのプラットフォームは独立して自分のデータウェアハウスを構築し維持しています。Footprint Analyticsを例にとると、そのデータウェアハウスアーキテクチャは以下の図のようになります。
3. 主流チェーン上データ分析プラットフォームの比較
このセクションでは、内容の視点とユーザーの視点から、データの豊富さ(カバーするブロックチェーンの数)、データの粒度、データの遅延、プラットフォームの使いやすさ、クエリの自由度などの観点から、Nansen、Token Terminal、Dune Analytics、Footprint Analyticsなどの主流のチェーン上データ分析プラットフォームを比較します。一部のプラットフォームは、ユーザーに標準化された情報報告インターフェースを提供しています。たとえば、NansenやToken Terminalなどです。
Nansen
Nansenは、皆さんが最もよく知っているチェーン上データ分析プラットフォームの一つでしょう。
他のプラットフォームと比較して、その最も優れた機能はウォレットプロファイリング(wallet profiler/wallet labeling)です。ウォレットプロファイリングを利用し、他のチェーン上データと組み合わせて、ユーザーに非常に価値のある情報を抽出します。たとえば、スマートマネーを追跡し、クジラや重度のDeFiプレイヤーのリアルタイムの動向を把握するのに役立ちます。他の人気製品には、ホットコントラクト(Hot Contract)、新興の人気DeFiやNFTコントラクトを発見する機能、NFTパラダイス、リアルタイムのNFT鋳造データを一望できる機能などがあります。
【カバーするブロックチェーン】Nansenは現在、Ethereum、Arbitrum、Avalanche、BSC、Celo、Fantom、Optimism、Polygon、Ronin、Terra、Solanaの合計11のブロックチェーンのチェーン上データ分析をサポートしています。
【データの粒度】Nansenの通常版は、ユーザーに厳選されたデータ(curated data)を提供するだけです。
【データの遅延】ストリーミング処理とバッチ処理。いくつかのデータ分析はほぼリアルタイムの報告を実現しています。
【プラットフォームの使いやすさ】ゼロハードル。
【クエリの自由度】Nansenの通常版は、標準情報テンプレートインターフェースのみを提供します。機関顧客のカスタマイズされたチェーン上データのクエリと分析のニーズに応じて、NansenはGoogle Cloud PlatformのBlockchain Datasetsを利用してNansen Institutions製品を発表し、専門的な機関ユーザーがカスタマイズされたニーズに合ったSQLクエリを作成できるようにしています。
特に、NansenはNansen Researchチャンネルで多くのチェーン上分析レポートを発表しています。研究レポートは、重要なイベントに対して詳細なチェーン上追跡と分析を行いますので、読者はこれらのレポート(たとえば、Nansenが先月のstETH脱ペッグ事件に関して発表したレポート https://www.nansen.ai/research/on-chain-forensics-demystifying-steth-depeg)を時折読むことをお勧めします。チェーン上分析の方法を学ぶのに大いに役立つでしょう。
Token Terminal
Token Terminalは、正確なプロトコル収入(protocol revenue)を提供することで知られています。プロトコル収入に基づいて、Token Terminalは各プロトコルの市販率(P/S)や市盈率(P/E)などのデータを計算しています。これらのデータは、ある程度各プロトコルに評価基準を提供します。
【カバーするブロックチェーン】Token Terminalは130以上のプロトコルのデータを追跡しています。
【データの粒度】Token Terminalはユーザーに厳選されたデータ(curated data)を提供するだけです。
【データの遅延】バッチ処理。IOSGチームが最近Token Terminalとコミュニケーションを取ったところ、現在Token Terminalプラットフォーム上のデータは約2日間の遅延があるとのことです。
【プラットフォームの使いやすさ】ゼロハードル。
【クエリの自由度】標準情報インターフェースのみを提供します。
他の主流のチェーン上データ分析プラットフォームは、ユーザーにデータテーブルを開放し、ユーザーが自由にコードを書いてクエリを行うことができるようにしています。Dune AnalyticsやFootprint Analyticsのように、クエリ内容に一定の自由度を与えています。
Dune Analytics
Dune Analyticsは、ユーザーが自主的にクエリを行うことができる最初のチェーン上データ分析プラットフォームであり、最大のアナリストグループとユーザーコミュニティを持っています。Dune Analyticsは、高度に粒度の細かい原始的なチェーン上データを提供しており、アナリストはこれらのデータを自由に利用してカスタマイズされたクエリを書くことができます。Dune AnalyticsはプロジェクトチームにもAbstractionを開放しており、プロジェクトチームは自分のプロトコルのデータ内容に基づいて、アナリストが使用するのに適したデータテーブルを作成できます。しかし、自主的なクエリには一定のハードルがあり、アナリストはPostgreSQLの記述能力を持っていなければ、自分のニーズに合ったデータクエリを作成することができません。また、クエリの遅延はアナリストのSQL記述レベルとDune Analyticsが提供するデータテーブルへの精通度に高度に関連しています。
【カバーするブロックチェーン】Dune AnalyticsはEthereum、BSC、Optimism、Polygon、Gnosis Chain、Solanaの合計6つのブロックチェーンのチェーン上データを提供しています。
【データの粒度】非常に細かい。
【データの遅延】ストリーミング処理。データ遅延は約5分です。
【プラットフォームの使いやすさ】Dune Analyticsはアナリストに一定のSQLコーディング要件を課しています。
【クエリの自由度】高い。
高度に粒度の細かい原始データを持つことで、アナリストはDune Analyticsで自由にチェーン上分析を作成できます。たとえば、毎日のStepN新靴鋳造および歴史的蓄積データ https://dune.com/queries/627689/1170627
Dune Analyticsは2022年5月30日にDune Engine v2を発表しました。Dune Engine v2は、Dune Analyticsのデータアーキテクチャを大幅に改良し、ユーザーにより迅速なクエリ応答とより良いクエリパフォーマンスを提供する一方で、ユーザー体験への影響を最小限に抑えています。
Footprint Analytics
Nansenは低い使用ハードルを持ちながら標準化された情報インターフェースのみを提供し、Dune Analyticsは自由なクエリを提供しますが、アナリストにはPostgreSQL言語の記述能力が求められます。Footprint Analyticsは、ユーザーに大きなクエリの自由度を提供しつつ、使用ハードルを下げるという両立した解決策を提供しています。これはどのように実現されているのでしょうか?
"チェーン上データは複雑で、アナリストは指標の計算を完了するために何百行、何千行ものコードを書く必要があるかもしれません。分析のハードルを下げるために、Footprintはチェーン上データを整理し統合し、データにビジネスの意味を与え、ユーザーがSQLクエリやコーディングなしでチェーン上データを分析できるようにしています。誰でも豊富なグラフインターフェースを通じて数分で自分のカスタムグラフを構築し、チェーン上データを解読し、プロジェクトの背後にある価値のトレンドを発見できます。"
Footprint Analyticsは、原始的なチェーン上データだけでなく、チェーン上データを階層化しています。最も原始的なチェーン上データはブロンズレベル(Bronze data)、選別、清掃、強化されたデータはシルバーレベル(Silver data)、さらにビジネスの意味を持つデータはゴールドレベル(Gold data)となります。
整理された商業論理とビジネスの意味を持つゴールドおよびシルバーレベルのデータは、直接分析に使用できます。ゴールドおよびシルバーレベルのデータを活用して、Footprint Analyticsはユーザーにデータテーブルを簡単にドラッグアンドドロップしてチェーン上データを自主的にクエリできるサービスを提供します。読者がSQL言語コードを書くことができるかどうかに関わらず、迅速に自分のカスタマイズされたニーズに合ったデータ分析情報インターフェースを作成し、必要な情報を直感的でインタラクティブなグラフで視覚化できます。
【カバーするブロックチェーン】Footprint Analyticsは現在、Ethereum、Arbitrum、Avalanche、Boba、BSC、Celo、Fantom、Harmony、IOTEX、Moonbeam、Moonriver、Polygon、Thundercore、Solanaなど合計17のブロックチェーンのチェーン上データを提供しています。
【データの粒度】Footprint Analyticsは、ユーザーに非常に細かい原始データを提供するだけでなく、厳選されたデータ(curated data)も提供します。
【データの遅延】現在、Footprint Analyticsは収集した原始データを毎日一度バッチ処理しており、データ遅延は1日です。
【プラットフォームの使いやすさ】Footprint Analyticsプラットフォームでは、ユーザーはSQLクエリやコーディングなしで自由にチェーン上データを分析できます。SQLコードの能力を持つアナリストには、Footprintも原始データを提供します。
【クエリの自由度】高い。
読者は今すぐFootprint Analyticsにアクセスし、数分で自分のチェーン上分析インターフェースを作成できます。
4. 一点の想像------分散型チェーン上データ分析
チェーン上データ分析は非常に重要ですが、現在のユーザーはNansen、Dune Analyticsなどの中央集権的に管理された「チェーン上データ」分析プラットフォームに依存して投資判断を行うしかありません。これらのプラットフォームでは、ユーザーは使用するデータが改ざんされていないかを検証することができず、プラットフォームが提供するデータセットが確実に真実であると信じるしかありません。「信じるな。検証せよ。」は、チェーン上データ分析においては空文句になっています。
Web3の波が押し寄せ、チェーン上エコシステムがますます豊かになる中で、未来のスマートコントラクトや分散型アプリケーションは、原始的なチェーン上データやオラクルが提供するデータだけでなく、原始データに基づいて計算された分析結果を入力情報として必要とするかもしれません。その時、私たちはこれらの中央集権的なチェーン上データ分析プラットフォームをこのような用途に信頼して使用できるでしょうか?答えは恐らく否です。
IOSGチームは最近、すでにプロジェクトチームが分散型チェーン上データのクエリと分析の実現に向けて第一歩を踏み出したことを見ました。スペースの制約から、次回に続きます------分散型チェーン上データ分析への道。
参考:
https://www.nansen.ai/post/nansen-and-google-cloud-empower-web3-investors-with-high-quality-real-time-market-intelligence https://cloud.google.com/customers/nansen https://www.nansen.ai/research/on-chain-forensics-demystifying-steth-depeg https://docs.dune.com/data-tables/data-tables https://docs.dune.com/dune-engine-v2-beta/query-engine https://www.footprint.network/@Footprint/Footprint-Datasets-Data-Dictionary https://www.youtube.com/watch?v=Pp9_wgYZB3I