ZONFF Research:우리가 Web3 데이터에 대해 이야기할 때, 우리는 무엇에 대해 이야기하고 있는가?
作者:Lewis Liao,Zonff Partners
우리가 Web3 데이터에 대해 이야기할 때, 우리는 무엇에 대해 이야기하고 있는 걸까요? 이 질문을 명확히 하려면 먼저 Web2에서 데이터가 어떤 모습인지 이해해야 합니다. 본문에서는 데이터의 생성, 수집, 저장, 관리 및 사용의 전체 생애 주기를 논의할 것입니다. 그에 앞서, 데이터가 어떻게 정의되는지 명확히 해야 합니다.
중국 국가 정보 보안 표준화 기술 위원회에서 발표한 《네트워크 보안 표준 실천 가이드 - 데이터 분류 및 등급 지침》(의견 수렴 초안 - v1.0 - 202109)에서는 데이터를 개인 정보, 공공 데이터 및 법인 데이터로 분류하고 있습니다.
구체적인 정의와 예시는 아래 표와 같습니다.
각 범주 위에는 데이터 유출의 피해 대상과 정도에 따라 5개의 수준으로 나뉩니다: 공개 수준(1급), 내부 수준(2급), 민감 수준(3급), 중요 수준(4급) 및 핵심 수준(5급). 공개 수준의 데이터는 공공 제품과 유사하며, 비경쟁적이고 비독점적입니다. 이러한 유형의 데이터는 일반적으로 정부/공공 기관에서 제공하며, 수익은 그들에게 귀속됩니다. 예를 들어, 일기예보, 거시 경제 데이터 등이 있습니다.
1.1 데이터의 생성, 수집 및 저장
공공 데이터, 개인 데이터 및 법인 데이터의 대부분은 우리가 일상적으로 컴퓨터 애플리케이션을 사용할 때 생성됩니다. 일반 사용자와 밀접하게 관련된 것은 개인 데이터와 법인 데이터입니다.
그렇다면 개인 데이터와 법인 데이터는 어떻게 생성되고 수집될까요? 고도로 추상화된 인터넷 제품 시스템 아키텍처는 아래와 같습니다.
Web2 애플리케이션 아키텍처
이미지 출처: Zonff Partners
가장 하위 레벨의 데이터베이스는 백엔드에서 전달된 사용자와 프론트엔드 간의 상호작용에서 생성된 데이터를 저장하고 있습니다. 넓은 의미에서, 이 모든 것은 사용자 데이터입니다.
모바일 애플리케이션의 경우, 데이터는 대략 다음과 같은 범주로 나눌 수 있습니다:
- 사용자 정보: 사용자가 애플리케이션 서비스를 사용할 때 기록되는 사용자 관련 정보로, 사용자 신원 정보, 장치, 네트워크, 지리적 위치 및 이동 장치에 설치된 애플리케이션 목록 등이 포함되며, 서버 데이터 테이블과 이벤트 추적을 통해 수집됩니다;
- 콘텐츠 데이터: 사용자가 애플리케이션 서비스를 사용하여 생성한 데이터로, 사용자가 애플리케이션에서 상호작용하여 입력한 비개인 정보 콘텐츠 데이터가 포함되며, 애플리케이션 서비스의 일부로서 일반적으로 서버 데이터 테이블에 의해 직접 수집됩니다;
- 행동 데이터: 사용자가 애플리케이션을 사용하는 동안 상호작용에서 생성된 데이터로, 사용자가 애플리케이션을 사용하는 동안의 행동 습관(예: 시청 시간, 클릭률, 침투율, 스크롤 상황 등)이 포함되며, 일반적으로 이벤트 추적을 통해 수집됩니다;
- 로그 데이터: 사용자가 애플리케이션을 사용하는 동안 애플리케이션 자체에서 생성된 데이터로, 애플리케이션의 충돌 로그 등이 포함됩니다;
- 코드 데이터: 비사용자 상호작용 데이터로, 프론트엔드 및 백엔드 코드가 포함되며, 이 데이터는 사용자 데이터와 마찬가지로 중앙화된 서버의 어딘가에 저장됩니다;
이 분류에서 사용자 정보는 개인 정보 데이터에 해당하며, 로그 및 코드 데이터는 법인 데이터에 해당합니다. 논의할 가치가 있는 것은 콘텐츠 데이터와 행동 데이터로, 이들은 Web2 시대에 중앙화된 실체에 의해 자체 비즈니스 데이터, 즉 법인 데이터로 분류되었습니다.
Web3 애플리케이션에서는 어떤 점이 다를까요? Preethi Kasireddy의 이 Web3 제품 아키텍처가 이해하는 데 도움이 될 수 있습니다.
Web3 제품 아키텍처
이미지 출처: Preethi Kasireddy
Web2 애플리케이션과 비교할 때, 사용자 단말기와 프론트엔드는 거의 변화가 없지만, 후면과 데이터베이스가 다릅니다. 사용자는 프론트엔드를 통해 노드 제공자와 상호작용하고(중앙화된 서버가 아닌), 이더리움과 같은 블록체인에 배치된 계약 코드를 접근하고 상호작용합니다. 이 과정에서도 위에서 언급한 여러 유형의 데이터가 생성되며, 기술 아키텍처의 차이로 인해 Web3에서 생성된 데이터는 중앙화된 서버에 의해 저장되지 않으며, 다양한 방식으로 생성된 데이터의 저장 방식은 다를 수 있습니다.
스마트 계약 상호작용에서 생성된 데이터는 모두 블록체인에 게시되며, 누구나 접근할 수 있어 공공 제품이 됩니다. 여기에는 자산 정보, 거래 데이터 및 계약 코드가 포함됩니다. 이론적으로 블록체인 블록 공간이 충분히 크기만 하면, 어떤 데이터든 블록체인에 저장할 수 있으며, 일부 프로젝트는 블록체인을 데이터베이스로 사용하여 데이터를 저장하려고 시도하고 있습니다.
현재 단계에서 Web3 애플리케이션에서 생성된 데이터는 위의 세 가지 데이터 외에도 대부분 여전히 중앙화된 서버의 저장 방식을 사용하고 있습니다. 여기에는 프론트엔드 코드, 사용자 정보, 콘텐츠 데이터, 행동 데이터 및 로그 데이터가 포함됩니다. 이는 현재 관련 저장 인프라가 완벽하지 않기 때문이며, 프로젝트 측은 기술 문제에 제한되거나 접근 속도를 보장하기 위해 중앙화된 솔루션을 채택하고 있습니다. 인프라가 지속적으로 발전함에 따라, IFPS, Stroj, Filecoin 및 Ceramic과 같은 점점 더 강력한 저장 기반 시설이 등장하고 있으며, 점점 더 많은 애플리케이션이 IPFS에 프론트엔드 웹사이트를 배치하고 ENS를 통해 접근하여 분산화된 웹사이트 프론트엔드를 구축하거나 NFT 프로젝트에 해당하는 이미지 및 파일 데이터를 Arweave를 통해 영구 저장하는 등의 방식으로 분산 저장을 시작하고 있습니다.
종합적으로 볼 때, Web3 애플리케이션을 구축할 때 애플리케이션 데이터 저장에 대해 개발자는 일반적으로 세 가지 선택을 할 수 있습니다:
- 블록체인에 저장하는 것: 이 선택은 매우 비쌉니다. 애플리케이션을 가능한 한 단순하게 만들고 데이터는 완전히 공개됩니다. 장점은 애플리케이션 주권을 가장 직접적으로 보호합니다;
- 스마트 계약 로직은 블록체인에 존재하고, 나머지는 전통적인 백엔드에 존재하는 것: 이 방법은 사용자 주권을 희생하며 중앙화의 위험이 있습니다. 이는 현재 대부분의 Web3 애플리케이션이 채택하는 방식입니다;
- 스마트 계약 로직은 블록체인에 존재하고, 나머지는 IPFS, Arweave 및 Ceramic과 같은 저장소에 존재하며, 스마트 계약을 통해 데이터를 관리하고 업데이트하는 것: 이 방법은 다소 비쌉니다(현재 Ceramic은 무료) 그리고 일시적으로 느리지만, 이 방법은 애플리케이션의 주권을 보호할 수 있습니다;
현재 대부분의 Web3 애플리케이션은 두 번째 방법으로 구축되고 있으며, 일부 특정 애플리케이션은 현재 세 번째 방법으로 구축할 수 있으며, 극소수의 애플리케이션만이 첫 번째 방법으로 구축되고 있습니다. 그렇다면 우리는 어떤 방법으로 저장할지를 선택해야 할까요? 어떤 저장 방식이 트렌드일까요?
1.2 트렌드: 분산 저장 - 데이터 및 애플리케이션 주권
Web3 애플리케이션을 구축하는 세 가지 방법에 대해 이야기할 때, 하나의 키워드가 있습니다: 주권(sovereign). 이 단어는 우리가 Web3의 특징에 대해 이야기할 때 피할 수 없는 주제입니다. 일반적으로 데이터 주권과 애플리케이션 주권을 포함합니다. 그렇다면 주권이 중요한가요? 이는 또 다른 주제이며, 본문에서는 논의하지 않겠습니다. 관심이 있으신 분은 관련 기사를 읽어보시기 바랍니다. 예를 들어, 「Web3 데이터 시장 전망」 및 「Web3 - Let the "right to data" awaken」와 같은 글을 참고하실 수 있습니다. 여기서는 데이터의 관점에서 Web3 주권 확립의 필수 경로를 살펴보고 인프라 발전의 방향과 초점을 추론하고자 합니다.
데이터 주권에 관해서는 디지털 자산 주권과 사용자 데이터 주권이 포함됩니다. 「수직 유동성: 가치가 어떻게 상호 연결되는가」라는 글에서는 토큰이 사용자의 디지털 자산 주권(신원, 관계 및 물권)을 정의할 수 있다고 언급했습니다. 이는 변경하기 어려운 광범위한 합의에 의해 결정됩니다. 가장 기본적으로 이러한 권리의 정의는 블록체인 자체에서 완료될 수 있습니다. 예를 들어, 특정 토큰이 어느 주소에 속하는지를 알 수 있습니다. 그러나 더 복잡한 디지털 제품의 권리 소유가 관련될 경우 많은 문제가 발생합니다. 가장 전형적인 예는 NFT에 해당하는 이미지(또는 기사 등)의 저장 문제입니다. 「NFT: 디지털 소유권의 혁명」에서는 이 문제에 대해 논의했습니다. 대부분의 NFT의 현황은 해당 디지털 제품이 특정 중앙화된 서버에 저장되어 있으며, 서버가 충돌하거나 해킹당할 경우 사용자가 소유하는 것은 단지 체인상의 해시일 뿐입니다. 해시 뒤에 있는 진정한 "물품"은 언제든지 도난당하거나 교체될 수 있으며, 이는 무가치해집니다.
또한 사용자 데이터 주권은 Web2와 Web3의 가장 뚜렷한 경계선 중 하나로, Web3 혁신과 발전을 위한 깃발로 여겨집니다. 이와 관련하여 Ceramic은 데이터 우주를 구상했습니다. 이는 조합 가능하고 네트워크 규모의 데이터 생태계로, 모든 사람이 소유하지만 누구도 독점하지 않습니다. 사용자 데이터는 사용자가 한 애플리케이션에서 다른 애플리케이션으로 이동하며, 사용자는 자신의 디지털 우주를 제어합니다. 현재 거의 모든 애플리케이션이 이를 실현할 수 없으며, Cyberconnect는 훌륭한 시도를 했습니다. 이들은 분산화된 소셜 그래프 프로토콜을 만들어 애플리케이션 간 사용자 소셜 관계 데이터의 상호 운용성을 실현하고자 합니다. 그러나 현재로서는 이 애플리케이션이 사용자 데이터 주권을 보장하지 않으며, 그들은 이미 Ceramic 위로 이전하기 시작했지만 모든 것이 아직 진행 중입니다.
애플리케이션 주권에 관해서는, 누군가는 주권 애플리케이션을 "슈퍼 구조"라고 부릅니다. 이는 중단할 수 없고, 무료이며, 가치가 있고, 확장 가능하며, 허가가 필요 없고, 긍정적인 외부성과 신뢰할 수 있는 중립성을 갖춘 특성을 가지고 있습니다. 이러한 요소들이 결합되어 디지털 세계의 공공 제품을 제공하고 "메타버스"(믿는다면)의 기반 시설을 구축합니다. 현재 대부분의 소위 Web3 애플리케이션은 애플리케이션 주권 정도가 낮으며, 이들은 진정한 공공 제품이 아닙니다. 이들은 강력한 제재와 변화에 쉽게 노출될 수 있으며, Tornado Cash 사건은 이 문제를 매우 직접적으로 설명합니다. 주요 원인 중 하나는 이러한 애플리케이션 프로토콜 계층의 계약 코드가 블록체인에 게시되어 있지만, 프론트엔드, 도메인 등 구성 요소는 여전히 제3의 중앙화된 실체에 의해 통제되기 때문입니다.
데이터 주권과 애플리케이션 주권을 실현하기 위해 Web3 애플리케이션의 구축 방식은 매우 중요합니다. 그 기본 출발점은 저장입니다. 데이터는 어디에 저장되며, 어떻게 저장해야 사용자가 주권을 가질 수 있을까요? 종합적으로 볼 때, 사용자 데이터 유형에 따라 다양한 해결책이 있을 수 있습니다:
- 사용자의 자산 정보, 거래 데이터는 공공 원장 데이터로, 체인에 존재하여 검증 가능성을 보장하는 것이 가장 중요합니다. 그러나 Aztec와 같은 애플리케이션이 사용자 체인 거래의 프라이버시를 보장하는 것은 매우 가치가 있습니다;
- 사용자의 사용자 정보, 콘텐츠 데이터 및 행동 데이터는 개인 정보로, 사용자의 통제권을 보장하는 것이 매우 중요합니다. 사용자의 동의 하에 선택적으로 이러한 데이터를 공개하여 공공 제품으로서 긍정적인 외부성을 발굴할 수 있습니다;
- 로그 데이터와 코드 데이터는 법인 데이터로, 개인화는 수용 가능하며 일정한 필요성이 있지만, "슈퍼 건축" 유형의 Web3 기반 시설 애플리케이션은 공공 기반 시설의 특성을 가져야 하며, 애플리케이션 코드의 저장은 공개되어야 하며 플랫폼 수준 이상의 검열 저항 능력을 가져야 합니다;
현재 대부분의 Web3 애플리케이션이 "스마트 계약 로직을 블록체인에 존재시키고, 나머지는 전통적인 백엔드에 존재시키는" 이유는 현재 충분히 사용하기 좋은 분산화된 인프라가 기존의 중앙화된 인프라 솔루션을 대체할 수 없기 때문입니다.
우선, IPFS, Filecoin 및 Arweave와 같은 분산 저장은 정적 저장으로, 이는 계산 및 상태 관리 능력이 부족하여 데이터베이스와 유사한 고급 기능(예: 가변성, 버전 관리, 접근 제어 및 프로그래밍 가능 논리)을 구현할 수 없습니다. Ceramic은 동적 저장으로 이러한 문제를 어느 정도 해결했지만, 현재 Ceramic의 접근 속도는 여전히 느리고 개발 키트도 충분히 완비되지 않았으며, 그 분산화 정도도 지속적으로 비판받고 있습니다.
IPFS, Filecoin 및 Arweave와 같은 분산 저장의 주요 역할은 이미지, 문서 및 정적 코드와 같은 파일 비구조화 데이터를 정적 저장하는 것입니다. 이는 변경하기 어려운 특성이 NFT와 같은 디지털 주권을 어느 정도 보장합니다. 체인상의 해시 코드와 체인 외부의 분산 저장 주소 간의 연결이 한 번 설정되면, 외부의 힘으로 매우 강력한 수단으로 영향을 미치기 어렵습니다. 프론트엔드 코드가 그 위에 구축되는 것도 애플리케이션 주권의 완전성을 촉진하지만, 현재 단계의 저장 기술은 단순히 저장만 할 뿐이며, 계산 능력의 부족으로 인해 기능 지원이 중앙화된 서버 솔루션에 비해 훨씬 뒤떨어집니다.
현재 시장의 주류 분산 저장 상황은 아래 표와 같습니다. 이 표는 「Web3 분산 저장 진화사」를 참고하여 요약 업데이트한 것입니다.
데이터 출처: CoinmarketCap
시간: 2022년 8월 23일
현재로서는 대부분의 저장 솔루션이 단순히 "분산 하드 드라이브"를 구현했으며, 이는 가장 기본적인 요구를 충족합니다. 더 고급의 저장 기반 계산 요구는 완전히 충족되지 않았습니다. 이러한 계산에는 로컬 개발 환경 렌더링, 데이터 흐름의 삽입 및 추출 등이 포함되며, 이는 현재 Web2 애플리케이션에서 가장 일반적이고 필요한 기능 모듈입니다. Ceramic의 데이터 흐름 저장 기반 혁신은 데이터의 권한 관리, 버전 관리, 동적 저장 및 조합 가능성을 실현하게 했습니다. Stratos는 데이터베이스 저장, 정적 저장, 계산 및 합의 등 여러 모듈을 포함하는 더 완벽한 전체 솔루션을 제공하려고 시도하고 있습니다. 또한 Arweave와 Filecoin은 계산의 중요성을 인식하고 있으며, 관련 모듈을 구축하거나 생태계 구축을 장려하고 있습니다. 예를 들어, Filecoin은 이미 Filecoin에서 계산을 지원하기 위해 FVM을 출시했습니다.
2.1 데이터 관리
Web3 애플리케이션을 분산 저장 위에 구축하면 외부의 간섭을 받기 어려워지고 독점과 강권을 타파할 수 있습니다. 그러나 단순히 저장하는 것만으로는 충분하지 않으며, 저장 환경의 렌더링 계산, 데이터 처리, 권한 구성 및 프라이버시 보호 등의 기술 지원이 필요합니다. 이를 통해 애플리케이션의 주권과 사용자 데이터 주권을 보장하고, 디지털 세계에서 개인 주권의 부상을 실현할 수 있습니다. 특히 권한 제어 및 프라이버시 보호 문제는 고급 주권 기술 솔루션을 통해 해결해야 합니다. Web2 애플리케이션에서 이러한 수준의 데이터는 서로 다른 보안 방어 수준에 따라 특정 중앙화된 서버에 저장됩니다. 그 보안성은 네트워크 보안에 의해 보장되며, 그 주권성은 플랫폼에 의해 보장됩니다(예: 기업 플랫폼, 정부 플랫폼 등). 이러한 데이터 관리 모델 하에서 사용자는 슈퍼 관리자의 지배를 받으며, 데이터 자체에 대해 사용자는 아무런 권리를 가지지 않습니다. 또한 데이터 보안은 슈퍼 관리자라는 중앙화된 실체에 의해 제약을 받습니다. 예를 들어, 최근 어떤 지역의 공안 데이터 유출 사건에서 한 슈퍼 관리자가 자신의 개인 키를 유출하여 수억 명의 개인 비밀 정보가 유출되었습니다.
Web3의 데이터 관리는 다음 두 가지 주요 특성을 가져야 합니다:
- 데이터 주권 보장: 이는 플랫폼 수준을 넘어서는 세계 수준이어야 하며, 세계적인 합의를 통해 디지털 세계 사용자 공동의 권리를 보장해야 합니다. 전통적인 세계에서는 이 측면의 보장이 플랫폼 수준이며, 규칙은 비합의에서 비롯됩니다. 한 플랫폼 수준의 회사가 모든 규칙 제도를 통제하고 언제든지 변경할 수 있어, 사용자의 개인 주권을 침해할 수 있습니다;
- 데이터 프라이버시 보장: 수학적으로 암호학을 통해 사용자 데이터 프라이버시의 안전성을 보장해야 하며, 데이터베이스 네트워크 보안 방식으로 보호해서는 안 됩니다. 사용자가 제어하는 선택적 암호화는 사용자 데이터 주권의 기본 권리 중 하나입니다;
Web3 데이터를 어떻게 관리할지는 해당 데이터가 어떻게 저장되는지에 달려 있습니다.
IPFS와 Filecoin은 콘텐츠 중심으로, Content ID(CID)를 통해 저장된 콘텐츠에 접근합니다. 이를 기반으로 제3자 애플리케이션을 구축하여 데이터 관리를 수행할 수 있습니다. 예를 들어 ChainSafe Files를 통해 단일 로그인 문제를 로컬 방식으로 해결한 후 비대칭 암호화를 통해 데이터를 암호화하여 저장할 수 있습니다. 콘텐츠 중심의 관리 방식은 사용자 관리가 어렵게 만들며, 데이터의 소유권을 부여하는 것이 복잡해집니다. Filecoin은 저장 외에도 생태계의 확장성이 다른 기반보다 훨씬 높습니다. 특히 FVM이 출시된 이후, 데이터 저장 및 데이터 검색과 관련된 수직 분야에서 특화된 도구가 출시될 수 있으며, 이는 사용자와 기업이 데이터를 더 잘 관리하고 데이터의 안전성을 보장하며 새로운 애플리케이션을 개발하는 데 도움을 줄 수 있습니다.
Ceramic은 IPFS를 기반으로 하지만 사용자 중심으로 IDX Protocol과 3ID DID 방법(CIP - 79)을 기반으로 Ceramic-native 계정 시스템을 구축하여 Ceramic에 대한 인증을 수행할 수 있습니다. 사용자는 블록체인 지갑을 사용하여 3ID DID가 데이터 흐름에서 거래를 수행하고 자신의 데이터를 관리할 수 있습니다. 이는 DID와 데이터를 연결하여 데이터 모델에 저장함으로써 이루어지며, 데이터 모델은 사용자 데이터의 형식(schema)을 정의합니다. 동일한 데이터 모델을 사용하는 애플리케이션은 해당 데이터 형식을 공유합니다.
Arweave는 한 번의 비용으로 영구 저장되는 체인상의 데이터 분산 저장 프로젝트로, 데이터는 공개적으로 투명하게 체인에 저장되며 누구나 접근할 수 있습니다. Arweave 블록체인 브라우저를 통해 체인에 존재하는 데이터를 탐색할 수 있습니다. 이러한 방식의 데이터 관리 방식은 체인상의 데이터를 관리하는 것과 동일하며, 접근 권한 제어 및 원래 데이터의 "핫 업데이트"가 없습니다. 데이터 업데이트 시마다 인덱스 주소가 변경되며, 이는 IPFS와 Filecoin에서는 문제가 되지 않지만, 데이터가 어느 사용자에게 속하는지가 매우 명확하여 데이터 권리를 추적하는 데 유리합니다.
Stratos는 블록체인 합의를 기반으로 하는 저장소로, 데이터 저장 경로를 기록하는 인덱스 트리를 유지합니다. Arweave와는 달리 Stratos의 각 저장 노드(Resource Node)는 계산 능력, 저장 및 콘텐츠 접근 제어 서비스를 동시에 갖추도록 설계되어 있으며, 프로젝트 측은 데이터의 동적 처리에 사용하기 위해 블록체인 자체를 기반으로 한 데이터베이스를 구축합니다. 이는 형태와 관리 방식이 분산화된 클라우드 컴퓨터에 가깝습니다.
2.2 트렌드: 분산 데이터 시장
사용자가 데이터 소유권을 가진 경우, 데이터 시장은 필연적인 트렌드입니다. 데이터는 자본 요소로서 그 안에서 유통됩니다. Filecoin에서는 데이터 시장에 대한 시도가 있었으며, Fivehive는 분산화된 애플리케이션 개발 스튜디오 OB1이 구축하고 유지하는 오픈 소스 시장으로, 데이터 세트의 업로드, 유지, 구매 및(또는) 양도를 지원합니다. 이 프로젝트는 두 년 전부터 업데이트 및 유지 관리가 중단되었으며, 실패했을 가능성이 높습니다.
Ceramic의 데이터 모델 시장
Ceramic은 그들의 데이터 우주에서 구축할 오픈 데이터 모델 시장을 언급했습니다. 데이터는 상호 운용성이 필요하며, 이는 생산성 향상을 크게 촉진할 수 있습니다. 이러한 데이터 모델 시장은 데이터 모델에 대한 긴급 합의를 통해 실현되며, 이는 이더리움의 ETC 계약 표준과 유사합니다. 개발자는 이를 기능 템플릿으로 선택할 수 있으며, 해당 데이터 모델에 맞는 모든 데이터의 애플리케이션을 가질 수 있습니다. 현재로서는 이러한 시장이 거래 시장이 아닙니다.
데이터 모델에 대한 간단한 예는 분산화된 소셜 네트워크에서 데이터 모델을 4개의 매개변수로 단순화할 수 있습니다:
- PostList: 사용자 게시물의 인덱스를 저장
- Post: 단일 게시물을 저장
- Profile: 사용자의 프로필을 저장
- FollowList: 사용자의 팔로우 목록을 저장
그렇다면 데이터 모델은 Ceramic에서 어떻게 생성, 공유 및 재사용되어 애플리케이션 간 데이터 상호 운용성을 실현할까요?
Ceramic은 데이터 모델 등록소(DataModels Registry)를 제공합니다. 이는 오픈 소스이며, 커뮤니티가 공동으로 구축한 Ceramic의 재사용 가능한 애플리케이션 데이터 모델 저장소입니다. 여기서 개발자는 기존 데이터 모델을 공개 등록하고 발견하며 재사용할 수 있습니다. 이는 공유 데이터 모델을 기반으로 한 고객 운영 애플리케이션의 기초입니다. 현재는 Github에 저장되어 있으며, 미래에는 Ceramic에 분산될 것입니다.
등록소에 추가된 모든 데이터 모델은 자동으로 @datamodels의 npm 플러그인 패키지 아래에 게시됩니다. 모든 개발자는 @datamodels/model-name을 사용하여 하나 이상의 데이터 모델을 설치하여 이러한 모델을 실행 시간에 사용하여 데이터 저장 또는 검색을 수행할 수 있습니다. 여기에는 DID DataStore 또는 Self.ID가 포함됩니다.
또한 Ceramic은 Github를 기반으로 DataModels 포럼을 구축하였으며, 데이터 모델 등록소의 각 모델은 해당 포럼에서 자신의 토론 스레드를 가지고 있습니다. 커뮤니티는 이를 통해 댓글을 달고 논의할 수 있습니다. 동시에 개발자는 데이터 모델에 대한 아이디어를 게시하여 등록소에 추가하기 전에 커뮤니티의 의견을 구할 수 있습니다. 현재 모든 것이 초기 단계에 있으며, 등록소의 데이터 모델은 많지 않으며, 등록소에 포함된 데이터 모델은 커뮤니티의 평가를 통해 CIP 표준이 되어야 하며, 이는 이더리움의 스마트 계약 표준과 유사하여 데이터의 조합 가능성을 제공합니다.
Ocean의 데이터 거래 시장
Ocean Protocol은 데이터 거래 시장을 중심으로 분산화된 데이터 서비스 공급망 네트워크를 구축했습니다. 아래 그림은 데이터 서비스 공급망을 생성하는 데 필요한 주요 서비스를 보여줍니다. 데이터, 알고리즘, 계산, 저장, 분석 및 기획을 제공합니다. 이러한 구성 요소는 서비스 실행 프로토콜(예: 서비스 수준 계약), 안전한 계산, 접근 제어 및 허가와 결합되어 있습니다.
이미지 출처: Ocean Protocol
주요 참여 역할은 데이터 사용자, 서비스 제공자, 시장, 서비스 게시자, 검증자 및 큐레이터입니다. Ocean은 전체 데이터 과학 도구 세트를 제공하며, 데이터 사용자는 Ocean에서 데이터 서비스 파이프라인을 구축하여 데이터 알고리즘을 자동으로 실행하여 데이터를 가공 처리하고 가치를 발견할 수 있습니다. 이 과정에서 데이터 사용자는 전체 데이터 세트를 다운로드하거나 볼 수 없으므로 데이터 세트가 도난당하지 않도록 보호됩니다. 사용자는 데이터 세트의 사용 권한을 구매하며, 해당 데이터 세트를 소유하는 것이 아닙니다.
출처: Ocean Protocol
이외에도 Ocean은 다른 기관과 협력하여 데이터 시장을 구축하고 있으며, 최근 메르세데스-벤츠의 분산 데이터 시장 Acentrik와 협력하여 Enterprise Release를 출시했습니다. Acentrik Marketplace는 OceanONDA V4 스마트 계약 및 라이브러리에 의해 구동되며, 데이터 서비스를 게시하고 데이터 토큰 및 Acentrik 자산 관리 토큰을 배포 및 발행하며, 소비를 통해 데이터 서비스를 사용할 수 있습니다.
3.1 데이터의 사용 및 스택
위의 내용을 바탕으로 우리는 Web3 데이터 스택을 제안합니다. 아래 그림을 참조하십시오.
- 가장 하위 레벨은 데이터 소스가 저장되는 장소로, 분산 저장, 체인상 및 체인 외 데이터 등이 포함됩니다;
- 다음은 이러한 데이터에 대한 관리 애플리케이션으로, 데이터베이스, 데이터 테이블, 인덱스 미들웨어 및 데이터 시장 등이 포함됩니다;
- 특정 데이터 관리 패러다임 하에서 데이터를 탐색할 수 있으며, 알고리즘 모델링, 통계 분석 및 데이터 시각화 등이 포함됩니다;
Web3 데이터 스택
이미지 출처: Zonff Partners
현재 업계에서 Web3 데이터 사용에 대한 대부분은 체인상 데이터이며, 끊임없이 새로운 데이터 분석 도구와 인덱스 도구가 등장하고 있습니다. 체인상 데이터라는 거대한 금광은 이미 충분히 발굴되었습니다. 위의 데이터 표와 분석 애플리케이션 분류에서 대부분은 체인상 데이터의 발굴에 해당하며, 소수만이 체인 외 데이터와 관련이 있습니다. 전반적으로 데이터 사용 링크는 ETLA(추출, 변환, 로드, 분석) 과정이며, 각 노드에서 대표적인 프로젝트가 존재합니다. 추출(Extract) 프로젝트의 대표는 The Graph이며, 변환(Transform) 가능한 데이터 테이블과 로드(Load) 단계의 프로젝트 대표는 Dune과 Luabsae입니다. 분석(Analysis)의 대표는 Nansen과 NFTGO입니다.
분산 저장에서 ETLA 전체 프로세스를 지원하는 프로젝트는 거의 없으며, 일부 추출 프로젝트만 존재합니다. 여기에는 거대한 기회와 도전이 존재합니다. The Graph와 Ceramic 커뮤니티는 Ceramic에서 데이터를 추출하기 위해 노력하고 있으며, Orbis의 창립자는 Ceramic에서 데이터를 탐색하기 위한 Cerscan을 시도했습니다. Arweave는 이미 The Graph를 통해 서브그래프를 사용하여 Arweave 저장 데이터를 읽고 관리할 수 있습니다. Filecoin에서도 관련 제3자 프로젝트가 이 작업을 수행하고 있습니다. 그러나 TLA 과정은 현재 아무도 관심을 두지 않고 있으며, 그 주된 이유는 서로 다른 분산 저장에 저장된 데이터의 이질성이 매우 높아 이러한 데이터의 가치를 발굴하기 위한 통일된 모델이 거의 없기 때문입니다. 이 단계에서 가장 가능성이 있는 것은 Ceramic입니다. 이는 데이터 모델의 존재로 Ceramic에서 데이터의 이질성이 기하급수적으로 감소하여 데이터의 활용 가능성이 높아지기 때문입니다.
체인상 데이터 외에도 많은 프로젝트가 체인상 데이터와 체인 외 데이터를 연결하려고 시도하고 있으며, 이러한 프로젝트는 "체인 개혁" 유형의 프로젝트로 볼 수 있습니다.
유형 분류는 다음과 같습니다:
- Web2 데이터 주권 부여 및 거래 시장: Itheum, Navigate, Swash 및 Phyllo 등. 이러한 프로젝트는 주로 전통적인 인터넷 데이터를 체인상 데이터와 결합하여 Web2와 Web3 간의 정보 상호작용을 원활하게 하려는 것입니다. 일반적인 방법은 Web2 데이터를 내보내고 지정된 데이터 풀에 다시 가져오거나 전통적인 인터넷 소셜 계정을 직접 연결하는 것입니다;
- 기업 데이터 합의: Authtrail, 이 프로젝트는 기업 내부 데이터베이스와 통합하여 합의 계층을 추가하여 기업 내 데이터의 변조 방지 및 추적 가능성을 달성합니다;
- 체인상 및 체인 외 데이터 조합: Space and Time, 이 프로젝트는 Authtrail과 유사하게 체인 외 데이터베이스 통합을 수행하지만, 합의 계층은 없으며, 주로 체인 외 및 체인상 데이터의 공동 계산을 수행합니다. Pool도 유사한 작업을 수행하고 있습니다;
Web3 데이터 사용 패러다임은 Web2와 뚜렷한 차이가 있으며, 이는 데이터가 모이는 방식에 있습니다. 즉, 서로 다른 유형의 데이터는 저장, 인덱스, 추출, 통합 및 활용 방식에서 차이가 있습니다. 앞서의 분류에 따라 간단히 요약하면 다음과 같습니다:
공개 데이터: 《네트워크 보안 표준 실천 가이드 - 데이터 분류 및 등급 지침》의 분류에서 공공 데이터와 일부 법인 데이터가 포함됩니다. 공공 제품으로서 공개적으로 가치를 발굴할 수 있는 데이터이며, 접근에 허가가 필요 없지만 사용자 소유권을 추적할 수 있어 에어드랍 분배를 추적할 수 있습니다. 전형적인 예는 체인상 데이터와 분산 저장에 저장된 비암호화 애플리케이션 데이터(예: 사용자 게시물, 좋아요 및 댓글 등)입니다. 그 사용에서 가장 중요한 상류 지원은 인덱스 애플리케이션(예: The Graph) 또는 Web3 원주 데이터베이스 애플리케이션(예: Tableland)입니다.
비공개 데이터: 《네트워크 보안 표준 실천 가이드 - 데이터 분류 및 등급 지침》의 분류에서 개인 정보와 일부 법인 데이터가 포함됩니다. 암호화 저장이 필요하며 일정한 프라이버시 권한 구성이 필요한 데이터 유형으로, 접근에 허가가 필요하며 공개적으로 접근할 수 없습니다. 분산 저장 및 블록체인에 저장될 경우, 권한 구성 가능한 암호화 저장이 필요합니다. 또는 ZK, MPC 및 TEE와 같은 다른 수단을 통해 프라이버시 기술을 보호해야 합니다. 그 사용에서 가장 중요한 상류 지원은 데이터베이스 애플리케이션(예: Kwil 및 Ceramic 등)입니다.