읽기, 인덱스에서 분석, Web3 데이터 인덱스 트랙 개요
# 1 서론
2017년 첫 번째 dApp인 Etheroll, ETHLend 및 CryptoKitties의 출현 이후, 현재 다양한 블록체인 기반의 금융, 게임 및 소셜 dApp이 꽃을 피우고 있습니다. 우리가 탈중앙화된 체인 상 애플리케이션에 대해 이야기할 때, 이러한 dApp이 상호작용에서 채택하는 다양한 데이터의 출처에 대해 생각해 본 적이 있습니까?
2024년, 핫이슈는 AI와 Web3에 집중되고 있으며, 인공지능의 세계에서 데이터는 그 성장과 진화의 생명선과 같습니다. 식물이 햇빛과 수분에 의존하여 자라듯, AI 시스템도 방대한 데이터에 의존하여 지속적으로 "학습"하고 "사고"합니다. 데이터가 없다면, AI의 알고리즘이 아무리 정교하더라도 공중누각에 불과하며, 그 본래의 지능과 효율성을 발휘할 수 없습니다.
본 문서는 블록체인 데이터 접근성(Data Accessibility)의 관점에서 산업 발전 과정에서 블록체인 데이터 인덱스의 진화를 심층 분석하고, 전통적인 데이터 인덱스 프로토콜인 The Graph와 신흥 블록체인 데이터 서비스 프로토콜인 Chainbase 및 Space and Time을 비교하며, 특히 AI 기술을 결합한 이 두 신생 프로토콜의 데이터 서비스 및 제품 구조의 특징을 탐구합니다.
# 2 데이터 인덱스의 복잡성과 단순성: 블록체인 노드에서 전체 체인 데이터베이스까지
## 2.1 데이터 출처: 블록체인 노드
"블록체인이란 무엇인가"를 처음 이해할 때, 우리는 종종 "블록체인은 탈중앙화된 장부입니다"라는 말을 듣습니다. 블록체인 노드는 전체 블록체인 네트워크의 기초로, 체인 상의 모든 거래 데이터를 기록, 저장 및 전파하는 책임을 집니다. 각 노드는 블록체인 데이터의 완전한 복사본을 보유하여 네트워크의 탈중앙화 특성이 유지되도록 합니다. 그러나 일반 사용자에게 블록체인 노드를 구축하고 유지하는 것은 쉽지 않습니다. 이는 전문 기술 능력이 필요할 뿐만 아니라, 높은 하드웨어 및 대역폭 비용이 수반됩니다. 동시에 일반 노드의 쿼리 능력도 제한적이어서 개발자가 필요로 하는 형식으로 데이터를 쿼리할 수 없습니다. 따라서 이론적으로 누구나 자신의 노드를 운영할 수 있지만, 실제로는 사용자가 일반적으로 제3자 서비스에 의존하는 경향이 있습니다.
이 문제를 해결하기 위해 RPC(원격 프로시저 호출) 노드 제공자가 등장했습니다. 이 제공자는 노드의 비용과 관리를 담당하며, RPC 엔드포인트를 통해 데이터를 제공합니다. 이를 통해 사용자는 노드를 구축하지 않고도 블록체인 데이터에 쉽게 접근할 수 있습니다. 공용 RPC 엔드포인트는 무료이지만 속도 제한이 있으며, dApp의 사용자 경험에 부정적인 영향을 미칠 수 있습니다. 개인 RPC 엔드포인트는 혼잡을 줄여 더 나은 성능을 제공하지만, 간단한 데이터 검색조차도 많은 왕복 통신이 필요합니다. 이로 인해 요청이 무겁고 복잡한 데이터 쿼리의 효율성이 낮아집니다. 또한 개인 RPC 엔드포인트는 일반적으로 확장성이 부족하고 서로 다른 네트워크 간의 호환성이 결여되어 있습니다. 그러나 노드 제공자가 표준화된 API 인터페이스를 제공함으로써 사용자가 체인 상의 데이터에 접근하는 데 더 낮은 진입 장벽을 제공하고, 후속 데이터 분석 및 응용을 위한 기초를 마련했습니다.
## 2.2 데이터 분석: 원형 데이터에서 유용한 데이터로
블록체인 노드에서 가져온 데이터는 종종 암호화 및 인코딩 처리된 원시 데이터입니다. 이러한 데이터는 블록체인의 완전성과 보안을 유지하지만, 그 복잡성은 데이터 분석의 난이도를 증가시킵니다. 일반 사용자나 개발자에게 이러한 원형 데이터를 직접 처리하는 것은 많은 기술 지식과 계산 자원을 필요로 합니다.
이러한 배경에서 데이터 분석 과정은 특히 중요해집니다. 복잡한 원형 데이터를 분석하여 더 이해하기 쉽고 조작하기 쉬운 형식으로 변환함으로써, 사용자는 이러한 데이터를 보다 직관적으로 이해하고 활용할 수 있습니다. 데이터 분석의 성공 여부는 블록체인 데이터 응용의 효율성과 효과를 직접적으로 결정하며, 전체 데이터 인덱스 프로세스에서 중요한 단계입니다.
## 2.3 데이터 인덱서의 진화
블록체인 데이터 양이 증가함에 따라 데이터 인덱서의 수요도 날로 증가하고 있습니다. 인덱서는 체인 상의 데이터를 조직하고 이를 데이터베이스로 전송하여 쿼리를 용이하게 하는 데 중요한 역할을 합니다. 인덱서의 작동 원리는 블록체인 데이터를 인덱싱하고 SQL과 유사한 쿼리 언어(예: GraphQL 등 API)를 통해 언제든지 사용할 수 있도록 하는 것입니다. 쿼리 데이터를 위한 통합 인터페이스를 제공함으로써, 인덱서는 개발자가 표준화된 쿼리 언어를 사용하여 필요한 정보를 신속하고 정확하게 검색할 수 있도록 하여 프로세스를 크게 단순화합니다.
다양한 유형의 인덱서는 여러 방법으로 데이터 검색을 최적화합니다:
- 전체 노드 인덱서: 이러한 인덱서는 전체 블록체인 노드를 운영하고 직접 데이터를 추출하여 데이터의 완전성과 정확성을 보장하지만, 많은 저장 및 처리 능력이 필요합니다.
- 경량 인덱서: 이러한 인덱서는 전체 노드에 의존하여 필요에 따라 특정 데이터를 가져와 저장 요구를 줄이지만, 쿼리 시간이 증가할 수 있습니다.
- 전용 인덱서: 이러한 인덱서는 특정 유형의 데이터나 특정 블록체인에 특화되어 있으며, NFT 데이터나 DeFi 거래와 같은 특정 사용 사례의 검색을 최적화할 수 있습니다.
- 집계 인덱서: 이러한 인덱서는 여러 블록체인 및 출처에서 데이터를 추출하여 체인 외부 정보를 포함하고, 통합된 쿼리 인터페이스를 제공하여 다중 체인 dApp에 특히 유용합니다.
현재 이더리움 아카이브 노드(Archive Node)는 Geth 클라이언트의 아카이브 모드에서 약 13.5TB의 저장 공간을 차지하고 있으며, Erigon 클라이언트에서는 아카이브 요구가 약 3TB입니다. 블록체인이 계속 성장함에 따라 아카이브 노드의 데이터 저장량도 증가할 것입니다. 이렇게 방대한 데이터 양을 감안할 때, 주류 인덱서 프로토콜은 다중 체인 인덱스를 지원할 뿐만 아니라, 다양한 응용 프로그램의 데이터 요구에 맞춰 데이터 분석 프레임워크를 맞춤화했습니다. 예를 들어, The Graph의 "서브그래프"(Subgraph) 프레임워크는 전형적인 사례입니다.
인덱서의 출현은 데이터의 인덱싱 및 쿼리 효율성을 크게 향상시켰습니다. 전통적인 RPC 엔드포인트와 비교할 때, 인덱서는 대량의 데이터를 효율적으로 인덱싱하고 고속 쿼리를 지원할 수 있습니다. 이러한 인덱서는 사용자가 복잡한 쿼리를 실행하고 데이터를 쉽게 필터링하며, 추출 후 분석할 수 있도록 합니다. 또한 일부 인덱서는 여러 블록체인에서 오는 데이터 소스를 집계하여 다중 체인 dApp에서 여러 API를 배포해야 하는 문제를 피할 수 있도록 지원합니다. 여러 노드에서 분산 방식으로 운영됨으로써, 인덱서는 더 강력한 보안성과 성능을 제공할 뿐만 아니라, 중앙 집중식 RPC 제공자가 초래할 수 있는 중단 및 다운타임 위험을 줄입니다.
반면에 인덱서는 미리 정의된 쿼리 언어를 통해 사용자가 기본 복잡한 데이터를 처리하지 않고도 필요한 정보를 직접 얻을 수 있도록 합니다. 이러한 메커니즘은 데이터 검색의 효율성과 신뢰성을 크게 향상시키며, 블록체인 데이터 접근의 중요한 혁신입니다.
## 2.4 전체 체인 데이터베이스: 스트림 우선 정렬
인덱스 노드를 사용하여 데이터를 쿼리하는 것은 일반적으로 API가 체인 상 데이터의 유일한 포털이 되는 것을 의미합니다. 그러나 프로젝트가 확장 단계에 접어들면, 종종 더 유연한 데이터 소스가 필요하며, 이는 표준화된 API가 제공할 수 없는 것입니다. 응용 프로그램 요구가 복잡해짐에 따라, 초기 데이터 인덱서는 그 표준화된 인덱스 형식으로 점점 더 다양해지는 쿼리 요구를 충족하기 어려워지고 있습니다. 예를 들어, 검색, 크로스 체인 접근 또는 체인 외 데이터 매핑 등이 있습니다.
현대 데이터 파이프라인 아키텍처에서 "스트림 우선" 접근 방식은 전통적인 배치 처리의 한계를 해결하는 방안으로 자리 잡아, 실시간 데이터 수집, 처리 및 분석을 가능하게 합니다. 이러한 패러다임의 전환은 조직이 들어오는 데이터에 즉시 반응할 수 있게 하여 거의 즉각적으로 통찰을 얻고 결정을 내릴 수 있도록 합니다. 유사하게, 블록체인 데이터 서비스 제공자의 발전도 블록체인 데이터 흐름 구축 방향으로 나아가고 있으며, 전통적인 인덱서 서비스 제공자는 실시간 블록체인 데이터를 데이터 흐름 방식으로 얻는 제품을 차례로 출시하고 있습니다. 예를 들어, The Graph의 Substreams, Goldsky의 Mirror, Chainbase 및 SubSquid와 같은 블록체인에 따라 데이터 흐름을 생성하는 실시간 데이터 레이크가 있습니다.
이러한 서비스는 블록체인 거래에 대한 실시간 분석과 더 포괄적인 쿼리 능력을 제공하는 요구를 해결하기 위해 설계되었습니다. "스트림 우선" 아키텍처가 지연을 줄이고 응답 능력을 강화하여 전통적인 데이터 파이프라인의 데이터 처리 및 소비 방식을 혁신한 것처럼, 이러한 블록체인 데이터 흐름 서비스 제공자도 더 발전되고 성숙한 데이터 소스를 통해 더 많은 응용 프로그램의 발전을 지원하고 체인 상 데이터 분석을 보조하고자 합니다.
현대 데이터 파이프라인의 관점에서 체인 상 데이터의 도전을 재정의함으로써, 우리는 체인 상 데이터의 관리, 저장 및 제공의 모든 잠재력을 새로운 시각에서 바라볼 수 있습니다. 서브그래프와 이더리움 ETL과 같은 인덱서를 데이터 파이프라인의 데이터 흐름으로 간주하기 시작하면, 모든 비즈니스 사례에 맞춤화된 고성능 데이터 세트를 제공할 수 있는 가능성의 세계를 상상할 수 있습니다.
# 3 AI + 데이터베이스? The Graph, Chainbase, Space and Time 비교
## 3.1 The Graph
The Graph 네트워크는 탈중앙화된 노드 네트워크를 통해 다중 체인 데이터 인덱스 및 쿼리 서비스를 구현하여 개발자가 블록체인 데이터를 쉽게 인덱싱하고 탈중앙화 애플리케이션을 구축할 수 있도록 합니다. 주요 제품 모델은 데이터 쿼리 실행 시장과 데이터 인덱스 캐시 시장으로, 이 두 시장은 본질적으로 사용자 제품 쿼리 요구를 충족하는 서비스입니다. 데이터 쿼리 실행 시장은 소비자가 필요한 데이터에 대해 적절한 데이터를 제공하는 인덱스 노드에 비용을 지불하는 것을 의미하며, 데이터 인덱스 캐시 시장은 인덱스 노드가 서브그래프의 역사적 인덱스 열기, 수수료, 체인 상 큐레이터의 서브그래프 출력 수요에 따라 자원 배분을 조정하는 시장입니다.
서브그래프(Subgraphs)는 The Graph 네트워크의 기본 데이터 구조입니다. 서브그래프는 블록체인에서 데이터를 추출하고 쿼리 가능한 형식(예: GraphQL 스키마)으로 변환하는 방법을 정의합니다. 누구나 서브그래프를 생성할 수 있으며, 여러 응용 프로그램이 이러한 서브그래프를 재사용할 수 있어 데이터의 재사용성과 사용 효율성을 높입니다.
The Graph 제품 구조 (출처: The Graph 백서)
The Graph 네트워크는 네 가지 주요 역할로 구성됩니다: 인덱서, 큐레이터, 위임자 및 개발자. 이들은 함께 web3 애플리케이션에 데이터 지원을 제공합니다. 각자의 역할은 다음과 같습니다:
- 인덱서(Indexer): 인덱서는 The Graph 네트워크의 노드 운영자로, GRT(The Graph의 네이티브 토큰)를 스테이킹하여 네트워크에 참여하고 인덱싱 및 쿼리 처리 서비스를 제공합니다.
- 위임자(Delegator): 위임자는 GRT 토큰을 인덱스 노드에 스테이킹하여 운영을 지원하는 사용자입니다. 위임자는 자신이 위임한 인덱스 노드를 통해 일부 보상을 얻습니다.
- 큐레이터(Curator): 큐레이터는 어떤 서브그래프가 네트워크에 인덱싱되어야 하는지를 신호합니다. 큐레이터는 가치 있는 서브그래프가 우선 처리되도록 돕습니다.
- 개발자(Developer): 앞의 세 역할과는 달리, 개발자는 수요 측으로 The Graph의 주요 사용자입니다. 그들은 서브그래프를 생성하고 The Graph 네트워크에 제출하여 네트워크가 필요한 데이터를 충족하도록 기다립니다.
현재 The Graph는 전면적인 탈중앙화 서브그래프 호스팅 서비스로 전환하였으며, 서로 다른 참여자 간의 경제적 인센티브가 시스템 운영을 보장합니다:
- 인덱스 노드 보상: 인덱스 노드는 소비자의 쿼리 수수료와 일부 GRT 토큰 블록 보상을 통해 수익을 얻습니다.
- 위임자 보상: 위임자는 자신이 지원하는 인덱스 노드를 통해 일부 보상을 얻습니다.
- 큐레이터 보상: 큐레이터가 가치 있는 서브그래프를 신호하면, 쿼리 수수료에서 일부 보상을 받을 수 있습니다.
사실, The Graph의 제품은 AI 열풍 속에서 빠르게 발전하고 있습니다. The Graph 생태계의 핵심 개발 팀 중 하나인 Semiotic Labs는 AI 기술을 활용하여 인덱스 가격 책정 및 사용자 쿼리 경험을 최적화하는 데 전념하고 있습니다. 현재 Semiotic Labs가 개발한 AutoAgora, Allocation Optimizer 및 AgentC 도구는 각각 여러 측면에서 생태계의 성능을 향상시키고 있습니다.
- AutoAgora는 동적 가격 책정 메커니즘을 도입하여 쿼리량 및 자원 사용량에 따라 실시간으로 가격을 조정하고, 가격 책정 전략을 최적화하여 인덱서의 경쟁력과 수익을 극대화합니다.
- Allocation Optimizer는 서브그래프 자원 배분의 복잡한 문제를 해결하여 인덱서가 자원을 최적 배치하여 수익과 성능을 향상시킬 수 있도록 돕습니다.
- AgentC는 실험적인 도구로, 사용자가 자연어를 통해 The Graph의 블록체인 데이터에 접근할 수 있도록 하여 사용자 경험을 향상시킵니다.
이러한 도구의 활용은 The Graph가 AI를 결합하여 시스템의 지능화와 사용자 친화성을 더욱 향상시켰습니다.
## 3.2 Chainbase
Chainbase는 모든 블록체인 데이터를 하나의 플랫폼에 통합하여 개발자가 애플리케이션을 더 쉽게 구축하고 유지할 수 있도록 하는 전체 체인 데이터 네트워크입니다. 그 독특한 기능은 다음과 같습니다:
- 실시간 데이터 레이크: Chainbase는 블록체인 데이터 흐름을 위한 실시간 데이터 레이크를 제공하여 데이터가 생성될 때 즉시 접근할 수 있도록 합니다.
- 이중 체인 아키텍처: Chainbase는 Eigenlayer AVS를 기반으로 실행 계층을 구축하고, CometBFT의 합의 알고리즘과 병렬 이중 체인 아키텍처를 형성합니다. 이러한 설계는 크로스 체인 데이터의 프로그래머블성과 조합 가능성을 강화하여 높은 처리량, 낮은 지연 및 최종성을 지원하며, 이중 스테이킹 모델을 통해 네트워크 보안을 강화합니다.
- 혁신적인 데이터 형식 표준: Chainbase는 "manuscripts"라는 새로운 데이터 형식 표준을 도입하여 암호화 산업에서 데이터의 구조화 및 활용 방식을 최적화합니다.
- 암호화 세계 모델: 방대한 블록체인 데이터 자원을 바탕으로 Chainbase는 AI 모델 기술을 결합하여 블록체인 거래를 효과적으로 이해하고 예측하며 상호작용할 수 있는 AI 모델을 구축했습니다. 현재 기본 모델인 Theia가 공개되었습니다.
이러한 기능은 Chainbase를 블록체인 인덱스 프로토콜에서 두드러지게 하며, 특히 실시간 데이터 접근성, 혁신적인 데이터 형식, 체인 상 및 체인 외 데이터의 결합을 통해 더 스마트한 모델을 생성하여 통찰력을 향상시키는 데 중점을 두고 있습니다.
Chainbase의 AI 모델 Theia는 다른 데이터 서비스 프로토콜과의 차별화된 핵심 요소입니다. Theia는 NVIDIA가 개발한 DORA 모델을 기반으로 하여 체인 상 및 체인 외 데이터와 시공간 활동을 결합하여 암호화 패턴을 학습하고 분석하며, 인과 추론을 통해 반응하여 체인 상 데이터의 잠재적 가치와 규칙을 깊이 파악하여 사용자에게 더 스마트한 데이터 서비스를 제공합니다.
AI가 강화된 데이터 서비스는 Chainbase를 단순한 블록체인 데이터 서비스 플랫폼이 아니라 더 경쟁력 있는 스마트 데이터 서비스 제공자로 변화시킵니다. 강력한 데이터 자원과 AI의 능동적 분석을 통해 Chainbase는 더 폭넓은 데이터 통찰력을 제공하고 사용자 데이터 처리 과정을 최적화할 수 있습니다.
## 3.3 Space and Time
Space and Time (SxT)는 검증 가능한 계산 계층을 구축하여 탈중앙화된 데이터 웨어하우스에서 제로 지식 증명을 확장하여 스마트 계약, 대형 언어 모델 및 기업에 신뢰할 수 있는 데이터 처리를 제공합니다. 현재 Space and Time은 2000만 달러의 최신 A 라운드 자금을 확보했으며, Framework Ventures, Lightspeed Faction, Arrington Capital 및 Hivemind Capital이 주도했습니다.
데이터 인덱스 및 검증 분야에서 Space and Time은 새로운 기술 경로인 Proof of SQL을 도입했습니다. 이는 Space and Time이 개발한 혁신적인 제로 지식 증명(ZKP) 기술로, 탈중앙화된 데이터 웨어하우스에서 실행되는 SQL 쿼리가 변조 방지 및 검증 가능함을 보장합니다. 쿼리를 실행할 때, Proof of SQL은 암호화된 증명을 생성하여 쿼리 결과의 완전성과 정확성을 검증합니다. 이 증명은 쿼리 결과에 첨부되어, 스마트 계약과 같은 어떤 검증자도 데이터가 처리 과정에서 변조되지 않았음을 독립적으로 확인할 수 있도록 합니다. 전통적인 블록체인 네트워크는 일반적으로 합의 메커니즘에 의존하여 데이터의 진위를 검증하지만, Space and Time의 Proof of SQL은 보다 효율적인 데이터 검증 방식을 구현합니다. 구체적으로, Space and Time의 시스템에서 하나의 노드는 데이터를 수집하고, 다른 노드는 zk 기술을 통해 해당 데이터의 진위를 검증합니다. 이러한 방식은 여러 노드가 동일 데이터를 반복적으로 인덱싱하여 최종적으로 합의에 도달하는 데 드는 자원 소모를 줄이고 시스템의 전반적인 성능을 향상시킵니다. 이 기술이 성숙함에 따라, 데이터 신뢰성을 중시하는 전통 산업에서 블록체인 데이터를 활용하여 제품을 구축하는 데 기초가 될 것입니다.
동시에 SxT는 Microsoft AI 공동 혁신 연구소와 긴밀히 협력하여 생성적 AI 도구의 개발을 가속화하고, 사용자가 자연어로 블록체인 데이터를 더 쉽게 처리할 수 있도록 하고 있습니다. 현재 Space and Time Studio에서는 사용자가 자연어 쿼리를 입력하면 AI가 이를 자동으로 SQL로 변환하고 사용자를 대신하여 쿼리 문을 실행하여 필요한 최종 결과를 제공합니다.
## 3.4 차이점 비교
# 결론 및 전망
종합적으로 볼 때, 블록체인 데이터 인덱스 기술은 초기의 노드 데이터 출처에서 데이터 분석 및 인덱서의 발전을 거쳐, AI가 강화된 전체 체인 데이터 서비스로 진화하는 과정을 겪었습니다. 이러한 기술의 지속적인 발전은 데이터 접근의 효율성과 정확성을 높일 뿐만 아니라, 사용자에게 전례 없는 지능화된 경험을 제공합니다.
미래를 전망할 때, AI 기술과 제로 지식 증명과 같은 새로운 기술의 지속적인 발전에 따라 블록체인 데이터 서비스는 더욱 지능화되고 안전해질 것입니다. 우리는 블록체인 데이터 서비스가 미래에 인프라로서 중요한 역할을 계속 수행하며, 산업의 발전과 혁신을 위한 강력한 지원을 제공할 것이라고 믿을 이유가 있습니다.