방법론, 도구 및 팀: 어떻게 Web3 데이터 분석가가 될 수 있을까?

우가 말하는 블록체인

2022-02-11 11:23:20

수집

Web3는 데이터 오픈 소스를 의미하며, 이는 더 이상 데이터 과학자만이 개방된 환경에서 작업하는 것이 아님을 의미합니다.

원문 저자: Andrew Hong

원문 제목: [2022] Guide to Web3 Data: Thinking, Tools, and Teams

편집: GaryMa, 우설 블록체인

이 글은 당신이 웹3에 처음 접하는 데이터 분석가로서 웹3 분석 팀을 구성하기 시작했거나 웹3 데이터에 대한 관심을 갖기 시작한 상황이라고 가정합니다. 어떤 방식이든, 당신은 이미 웹2에서 API, 데이터베이스, 변환 및 모델이 어떻게 작동하는지 대략적으로 익혔을 것입니다.

이 새로운 가이드에서는 제 세 가지 관점을 간결하게 설명하려고 합니다:

사고: 왜 열린 데이터 채널이 데이터의 활용 방식을 변화시키는가
도구: 웹3 데이터 스택 내의 도구 개요 및 이를 활용하는 방법
팀: 웹3 데이터 팀의 기본 고려사항 및 기술

데이터 사고

먼저 웹2에서 데이터를 구축하고 쿼리하며 접근하는 방법(즉, Twitter API에 접근하는 방법)을 요약해 보겠습니다. 우리는 데이터 채널을 단순화하기 위해 네 가지 단계를 거칩니다:

API 이벤트 트리거(트윗을 보냄)
데이터베이스 업데이트(기존 사용자 모델/상태 변경에 연결)
특정 제품/분석 사례에 대한 데이터 변환
모델 훈련 및 배포(당신의 Twitter 피드를 관리하는 데 사용)

데이터가 오픈 소스일 때, 유일하게 필요한 단계는 변환이 완료된 이후입니다. Kaggle(1000개의 데이터 과학/특징 공학 대회)와 hugs Face(26,000개의 최상위 NLP 모델)와 같은 커뮤니티는 기업이 더 나은 모델을 구축하는 데 도움을 주기 위해 일부 공개 데이터 하위 집합을 사용합니다. 앞의 세 단계에서 데이터를 공개하는 특정 분야의 사례도 있지만, 여전히 쓰기 권한에 대한 제한이 있습니다.

제가 말씀드리고 싶은 것은, 여기서 제가 데이터에 대해서만 이야기하고 있다는 것입니다. 웹2가 완전히 오픈 소스가 아니라는 것은 아닙니다. 대부분의 다른 엔지니어링 역할과 마찬가지로, 웹2 데이터에는 파이프라인을 구축하기 위한 많은 오픈 소스 도구가 있습니다(dbt, apache, TensorFlow). 우리는 여전히 웹3에서 이러한 모든 도구를 사용합니다. 요약하자면, 그들의 도구는 열려 있지만, 그들의 데이터는 폐쇄적입니다.

웹3는 데이터도 오픈 소스화하여, 더 이상 데이터 과학자만이 열린 환경에서 작업하는 것이 아니라, 분석 엔지니어와 데이터 엔지니어도 열린 환경에서 작업하게 됩니다! 모든 사람이 거의 블랙박스인 데이터 루프가 아닌 더 연속적인 작업 흐름에 참여하게 됩니다.

작업의 형태는 웹2 데이터 댐에서 웹3 데이터 강, 삼각주 및 바다로 변화했습니다. 생태계의 모든 제품이 이 루프의 영향을 동시에 받는다는 점도 중요합니다.

웹3 분석가가 어떻게 함께 작업하는지에 대한 예를 살펴보겠습니다. 수십 개의 거래소가 서로 다른 거래 메커니즘과 수수료를 사용하여 토큰 A를 토큰 B로 교환할 수 있도록 합니다. 만약 이들이 나스닥과 같은 전형적인 거래소라면, 각 거래소는 자신의 데이터를 10k 또는 일부 API로 보고하고, 이후 capIQ와 같은 다른 서비스가 모든 교환 데이터를 모아 요금을 부과하여 그들의 API에 접근할 수 있게 합니다. 때때로 그들은 혁신 대회를 열어 향후 추가 데이터/차트 기능에 대한 요금을 부과할 수 있습니다.

웹3 거래소에서는 다음과 같은 데이터 흐름이 있습니다:

dex.trades는 Dune의 테이블입니다(많은 커뮤니티 분석 엔지니어들이 시간이 지남에 따라 정리한 것), 모든 DEX 교환 데이터가 집계되어 있어, 모든 거래소에서 단일 토큰의 거래량을 쉽게 검색할 수 있습니다.
한 데이터 분석가가 커뮤니티 오픈 소스 쿼리를 통해 대시보드를 만들었으므로, 이제 우리는 전체 DEX 산업에 대한 공개 개요를 갖게 되었습니다. 모든 쿼리가 한 사람이 작성한 것처럼 보일지라도, 이는 Discord에서 많은 논의를 거쳐 정확하게 조합된 것이라고 추측할 수 있습니다.
DAO 과학자들은 대시보드를 보고 그들의 쿼리에서 데이터를 분할하여 특정 쌍(예: 스테이블코인)을 살펴봅니다. 그들은 사용자 행동과 비즈니스 모델을 관찰한 후 가설을 세우기 시작합니다. 과학자들은 어떤 DEX가 거래량에서 더 큰 비중을 차지하는지 볼 수 있으므로, 새로운 모델을 제안하고 거버넌스 매개변수를 변경하여 체인에서 투표하고 실행할 것을 제안합니다.
이후 우리는 언제든지 공개 쿼리/대시보드를 확인하여 제안이 어떻게 더 경쟁력 있는 제품을 만들어내는지 볼 수 있습니다.
미래에 다른 DEX가 등장하거나(또는 새 버전으로 업그레이드되면) 이 과정이 반복됩니다. 누군가가 이 테이블을 업데이트하기 위해 삽입 쿼리를 생성할 것입니다. 이는 모든 대시보드와 모델에 반영되며(아무도 수동으로 수정하거나 변경할 필요가 없습니다), 다른 분석가/과학자들은 이미 완료된 작업을 바탕으로 작업할 수 있습니다.

공유된 생태계 덕분에 논의, 협력 및 학습이 더 밀접한 피드백 루프 내에서 발생합니다. 저는 이것이 때때로 감당하기 어려울 수 있다는 것을 인정하며, 제가 아는 분석가들은 기본적으로 데이터 고갈을 겪고 있습니다. 그러나 우리 중 한 사람이 데이터를 앞으로 나아가게 하는 한(예: 누군가가 DEX 쿼리를 생성했다면), 다른 사람들도 혜택을 받게 됩니다.

이것이 항상 복잡한 추상적 관점일 필요는 없으며, 때로는 ENS 역방향 해석기나 대부분의 GraphQL 매핑을 자동으로 생성하는 도구와 같은 실용적인 기능일 뿐입니다! 이러한 모든 것은 모든 사람이 재사용할 수 있으며, 특정 제품의 프론트엔드나 개인 거래 모델에서 API를 사용할 수 있습니다.

여기서 열리는 가능성은 놀랍지만, 저는 휠이 아직 매끄럽게 돌아가지 않고 있다는 것을 인정합니다. 데이터 엔지니어링에 비해 데이터 분석가/과학 분야의 생태계는 여전히 미성숙합니다. 그 이유는 다음과 같습니다:

데이터 엔지니어링은 웹3의 핵심 초점이었으며, 클라이언트 RPC API의 개선부터 기본 SQL/GraphQL 집계까지 포함됩니다. theGraph와 Dune과 같은 제품은 그들이 이 분야에서 기울인 노력의 사례입니다.

분석가가 웹3의 독특한 크로스 프로토콜 관계 테이블을 이해하는 것은 매우 어렵습니다. 예를 들어, 분석가는 Uniswap만 분석하는 방법을 이해할 수 있지만, 혼합된 상황에서 집계기, 다른 DEX 및 다양한 토큰 유형을 추가하는 것은 어렵습니다. 무엇보다도, 이를 실현하는 도구는 작년까지 실제로 등장하지 않았습니다. 데이터 과학자들은 일반적으로 원시 데이터를 수집하고 모든 작업을 혼자서 수행하는 데 익숙합니다(자신의 파이프라인을 구축). 저는 그들이 개발 초기 단계에서 분석가 및 엔지니어와 이렇게 밀접하고 공개적으로 협력하는 것에 익숙하지 않다고 생각합니다. 개인적으로, 저에게는 시간이 걸렸습니다.

협력하는 방법을 배우는 것 외에도, 웹3 데이터 커뮤니티는 이 새로운 데이터 스택을 통해 작업하는 방법을 배우고 있습니다. 더 이상 인프라를 제어할 필요가 없으며, Excel에서 데이터 풀 또는 데이터 웨어하우스로 천천히 구축할 필요가 없습니다. 제품이 출시되면 데이터가 어디에서나 출시됩니다. 당신의 팀은 기본적으로 데이터 인프라의 가장 깊은 곳에 던져진 것입니다.

데이터 도구

다음은 몇 가지 데이터 도구 요약입니다:

이제 각 유형과 사용법을 살펴보겠습니다:

상호작용 + 데이터 소스: 주로 프론트엔드, 지갑 및 하위 수준의 데이터 수집에 사용됩니다.

1.1. 클라이언트: 이더리움의 기본 구현은 동일하지만, 각 클라이언트는 서로 다른 추가 기능을 가지고 있습니다. 예를 들어, Erigon은 데이터 저장/동기화에 많은 최적화를 수행했으며, Quorum은 프라이빗 체인을 지원합니다.

1.2. 노드 서비스: 어떤 클라이언트를 실행할지 선택할 필요가 없지만, 이러한 서비스를 사용하면 노드를 유지 관리하고 API가 정상적으로 작동하는 데 드는 수고를 덜 수 있습니다. 노드의 복잡성은 얼마나 많은 데이터를 캡처하고 싶은지에 따라 다릅니다(경량 노드 → 전체 노드 → 아카이브 노드).

쿼리 + 데이터 매핑: 이 계층의 데이터는 계약 내에서 URI로 참조되거나 계약 ABI를 사용하여 거래 데이터를 바이트에서 테이블 형식으로 매핑하여 가져옵니다. 계약 ABI는 계약에 포함된 함수와 이벤트를 알려주며, 그렇지 않으면 우리는 배포된 바이트코드만 볼 수 있습니다(이 ABI 없이는 계약 거래를 역공학하거나 디코딩할 수 없습니다).

2.1. 거래 데이터: 가장 일반적으로 사용되며, 주로 대시보드 및 보고서에 사용됩니다. theGraph와 Flipside API도 프론트엔드에서 사용됩니다. 일부 테이블은 계약의 1:1 매핑이며, 일부 테이블은 추가 변환을 허용합니다.

2.2. 메타데이터 "프로토콜": 이들은 실제 데이터 제품이 아니라 DID 또는 파일 저장을 위한 것입니다. 대부분의 NFT는 이 중 하나 이상의 데이터 소스를 사용할 것이며, 올해 우리는 이러한 데이터 소스를 사용하여 쿼리를 강화하는 데 점점 더 많이 사용할 것이라고 생각합니다.

2.3. 전문 제공업체: 이 중 일부는 매우 강력한 데이터 흐름 제품으로, Blocknative는 mempool 데이터에 사용되고, Parsec은 체인 상 거래 데이터에 사용됩니다. 다른 것들은 DAO 거버넌스나 재무 데이터와 같은 체인 내외의 데이터를 집계합니다.

2.4. 고차원 데이터 제공업체: 이들의 데이터를 쿼리하거나 변환할 수는 없지만, 그들은 이미 모든 힘든 작업을 완료했습니다.

강력하고 뛰어난 커뮤니티가 이러한 도구와 함께하지 않는다면 웹3는 존재하지 않을 것입니다! 우리는 각 유형에 해당하는 뛰어난 커뮤니티를 볼 수 있습니다:

Flashbots: MEV에 집중하여 거래 보호를 위한 맞춤형 RPC부터 전문 화이트 해커 서비스까지 모든 것을 제공합니다. MEV는 주로 총알 문제를 의미하며, 누군가가 당신보다 더 많은 가스를 지불하여(하지만 직접 채굴자에게) 그들이 거래를 먼저 실행할 수 있도록 합니다.
Dune 데이터 엘리트: Dune의 데이터 생태계에 기여하는 데이터 분석 엘리트입니다.
Flipside 데이터 엘리트: 웹3 데이터의 발전에 기여하는 데이터 분석 엘리트입니다.
MetricsDAO: 여러 체인에서 다양한 데이터 보상을 처리하는 크로스 생태계 작업을 수행합니다.
DiamondDAO: Stellar의 데이터 과학 작업에 집중하며, 주로 거버넌스, 재무 및 토큰 관리에 중점을 둡니다.
IndexCoop: 특정 분야의 분석에 집중하여 암호화폐 산업에서 최고의 지수를 개발합니다.
OurNetwork: 매주 다양한 프로토콜 및 웹3 데이터에 대한 커버리지를 제공합니다.

주: 위의 DAO 참여 연락처는 원문을 참조하십시오.

각 커뮤니티는 웹3 생태계를 개선하기 위해 많은 작업을 수행했습니다. 의심할 여지 없이, 커뮤니티가 있는 제품은 100배의 속도로 성장할 것입니다. 이는 여전히 심각하게 과소평가된 경쟁 우위이며, 사람들이 이러한 커뮤니티에서 무언가를 구축하지 않는 한 이점을 얻지 못할 것이라고 생각합니다.

데이터 팀

말할 필요도 없이, 당신은 이러한 커뮤니티에서 팀에 합류할 수 있는 사람들을 찾아야 합니다. 이제 중요한 웹3 데이터 기술과 경험을 더 깊이 분석하여 당신이 실제로 무엇을 찾고 있는지 알 수 있도록 하겠습니다. 고용되기를 원한다면, 이것을 당신이 추구하는 기술과 경험으로 간주하십시오!

최소한 분석가는 Etherscan 탐정이 되어야 하며, Dune 대시보드를 읽는 방법을 알아야 합니다. 이는 느긋하게 배우는 데 약 1개월이 걸릴 수 있으며, 미친 듯이 배우고자 한다면 2주가 필요할 것입니다.

그 외에도, 특히 시간 배분과 기술 이전에 대해 더 많은 내용을 고려해야 합니다.

시간 측면: 웹3에서 데이터 분석가는 약 30-40%의 시간을 생태계 내 다른 분석가 및 프로토콜과 동기화하는 데 보낼 것입니다. 그들을 혼란스럽게 하지 않도록 주의하십시오. 그렇지 않으면, 이는 모든 사람에게 장기적인 피해가 될 것입니다. 더 큰 데이터 커뮤니티와 함께 배우고 기여하며 구축하는 것이 필요합니다.
이전 가능성 측면: 이 분야에서 기술과 분야는 매우 이전 가능성이 높습니다. 다른 프로토콜을 사용할 경우, 체인 상 데이터의 테이블 형식이 동일하므로 적응 시간이 줄어들 수 있습니다.

이 도구를 사용하는 방법을 아는 것이 중요하지 않다는 것을 기억하십시오. 모든 분석가는 많든 적든 SQL을 작성하거나 데이터 대시보드를 생성할 수 있어야 합니다. 모든 것은 기여하고 커뮤니티와 협력하는 방법에 관한 것입니다. 만약 당신이 면접하는 사람이 어떤 웹3 데이터 커뮤니티의 일원이 아니거나(그리고 이 분야에 전혀 관심이 없는 것처럼 보인다면), 이는 위험 신호일 수 있습니다.

위험 경고