AI는 왜 블록체인과 떼려야 뗄 수 없는지, DePIN이 인공지능에 어떻게 기여하는지 살펴보자
본 문서의 저자는 Filecoin 통찰 특약 기고자이자, Portal Ventures 투자 파트너 Catrina입니다.
과거에는 스타트업이 속도, 유연성 및 창업 문화를 바탕으로 조직의 관성에서 벗어나 기술 혁신을 이끌어왔습니다. 하지만, 모든 것이 인공지능 시대에 의해 재편되었습니다. 지금까지 혁신적인 AI 제품의 창조자는 Microsoft의 OpenAI, Nvidia, Google, 심지어 Meta와 같은 전통적인 기술 대기업들이었습니다.
무슨 일이 일어났나요? 왜 이번에는 대기업이 스타트업을 이겼을까요? 스타트업은 훌륭한 코드를 작성할 수 있지만, 기술 대기업과 비교했을 때 여러 가지 장애물에 직면해 있습니다:
높은 계산 비용
AI 발전의 역방향 볼록성: 필요한 지침이 부족하여 AI의 사회적 영향에 대한 우려와 불확실성이 혁신을 저해하고 있습니다.
AI 블랙박스 문제
대형 기술 회사가 구축한 "데이터 방어선"이 진입 장벽을 형성합니다.
그렇다면 왜 블록체인 기술이 필요할까요? 그것이 인공지능과 어떤 교차점이 있을까요? 모든 문제를 한 번에 해결할 수는 없지만, Web3의 분산 물리적 인프라 네트워크(DePIN)는 위의 문제를 해결할 수 있는 조건을 만듭니다. 아래에서는 DePIN 뒤에 있는 기술이 인공지능을 어떻게 지원하는지, 주로 네 가지 차원에서 설명하겠습니다:
인프라 비용 절감
창작자 및 인격 검증
AI 민주화 및 투명성 보완
데이터 기여 보상 메커니즘 설정
아래 문서에서:
"web3"는 차세대 인터넷을 의미하며, 블록체인 기술과 기타 기존 기술이 유기적으로 구성됩니다.
"블록체인"은 탈중앙화 및 분산 원장 기술을 의미합니다.
"암호화"는 토큰 메커니즘을 이용한 인센티브 및 탈중앙화 방식을 의미합니다.
1. 인프라 비용 절감(계산 및 저장)
모든 기술 혁신의 시작은 어떤 비싼 것이 저렴해져서 낭비될 수 있게 되는 것입니다.
------ 사회의 기술 부채와 소프트웨어의 구텐베르크 순간 (https://skventures.substack.com/p/societys-technical-debt-and-softwares), SK Ventures 제공
인프라의 경제성이 얼마나 중요한가 (인공지능의 인프라는 데이터의 계산, 전송 및 저장 하드웨어 비용을 의미합니다), Carlota Perez의 기술 혁명 이론 (https://stratechery.com/2021/the-death-and-birth-of-technological-revolutions/)은 기술 혁신이 두 단계로 구성된다고 제안합니다:
설치 단계는 대량의 위험 투자, 인프라 구축 및 "푸시형" 시장 진입 전략이 특징입니다. 고객이 새로운 기술의 가치 제안을 이해하지 못하기 때문입니다.
배포 단계는 인프라 공급의 대량 증가가 특징이며, 신규 고객 유치 장벽을 낮추고 "푸시형" 시장 진입 전략을 채택하여 제품 시장 적합도가 높고 고객이 더 많은 미완성 제품을 기대하고 있음을 나타냅니다.
ChatGPT와 같은 시도가 시장 적합성과 고객 수요를 증명했으므로, 사람들은 AI가 배포 단계에 들어섰다고 느낄 수 있습니다. 하지만 AI는 여전히 중요한 한 가지가 부족합니다: 가격에 민감한 스타트업이 구축하고 시도할 수 있는 과잉 인프라 공급입니다.
문제
현재 물리적 인프라 분야는 AWS, GCP, Azure, Nvidia, Cloudflare, Akamai 등 수직 통합된 독점 기업들에 의해 지배되고 있으며, 업계의 이익률이 높습니다. AWS는 상용화된 계산 하드웨어에서 61%의 총 이익률을 기록하고 있습니다 (https://www.cnbc.com/2021/09/05/how-amazon-web-services-makes-money-estimated-margins-by-service.html). 따라서 AI 분야, 특히 LLM 분야의 신규 진입자는 매우 높은 계산 비용에 직면해야 합니다.
ChatGPT의 한 번의 훈련 비용은 약 400만 달러로 추정되며, 하드웨어 추론 운영 비용은 하루 약 70만 달러입니다.
Bloom 2판은 훈련 및 재훈련에 1000만 달러가 필요할 수 있습니다.
만약 ChatGPT가 Google 검색에 들어간다면, 구글의 수익은 360억 달러 감소할 것이며, 막대한 이익이 소프트웨어 플랫폼(구글)에서 하드웨어 공급업체(엔비디아)로 이동할 것입니다.
해결책
DePIN 네트워크는 Filecoin (2014년에 시작된 DePIN의 선구자로, 분산 데이터 저장을 위한 인터넷급 하드웨어를 집중적으로 서비스함), Bacalhau (https://www.bacalhau.org/), Gensyn.ai (http://gensyn.ai/), Render Network (https://rendertoken.com/), ExaBits (CPU/GPU 수요와 공급을 매칭하는 조정 레이어: https://www.exabits.xyz/)를 통해 다음 세 가지 측면에서 75%에서 90% 이상의 인프라 비용을 절감할 수 있습니다:
1. 공급 곡선 촉진, 시장 경쟁 유도
DePIN은 하드웨어 공급자가 서비스 제공자가 될 수 있는 평등한 기회를 제공합니다. 누구나 "채굴자"로 참여할 수 있는 시장을 만들어 CPU/GPU 또는 저장 능력을 경제적 보상으로 교환할 수 있게 하여 기존 공급자에게 경쟁을 가져옵니다.
AWS와 같은 회사는 사용자 인터페이스, 운영 및 수직 통합에서 17년의 선발 우위를 가지고 있지만, DePIN은 중앙 집중식 공급자의 가격 책정을 수용할 수 없는 신규 고객을 끌어들입니다. Ebay가 Bloomingdale과 직접 경쟁하지 않고 더 경제적인 대안을 제공하여 유사한 수요를 충족시키는 것처럼, 분산 저장 네트워크는 중앙 집중식 공급자를 대체하는 것이 아니라 가격에 민감한 사용자 집단을 위해 서비스를 제공하는 것을 목표로 합니다.
2. 암호 경제 설계를 통한 시장 경제 균형 촉진
DePIN이 생성한 보조금 메커니즘은 하드웨어 공급자가 네트워크에 참여하도록 유도하여 최종 사용자의 비용을 낮출 수 있습니다. 그 원리를 살펴보면, AWS와 Filecoin의 Web2 및 Web3에서의 저장 제공자의 비용과 수익을 비교할 수 있습니다.
고객이 가격 인하를 얻는 방법: DePIN 네트워크는 경쟁 시장을 조성하여 Bertrand식 경쟁 (https://en.wikipedia.org/wiki/Bertrand_competition)을 도입하여 고객이 지불하는 비용을 낮춥니다. 반면, AWS EC2는 운영을 유지하기 위해 약 55%의 이익률과 31%의 총 이익률이 필요합니다. DePIN 네트워크가 제공하는 토큰 인센티브/블록 보상도 새로운 수익원입니다. Filecoin의 맥락에서, 저장 제공자는 더 많은 실제 데이터를 호스팅할수록 블록 보상을 받을 수 있습니다 (토큰). 따라서 저장 제공자는 더 많은 고객을 유치하여 거래를 성사시키고 수익을 증가시킬 동기가 있습니다. 몇몇 신흥 계산 DePIN 네트워크의 토큰 구조는 아직 공개되지 않았지만, 유사한 패턴을 따를 가능성이 높습니다. 유사한 네트워크에는 다음이 포함됩니다:
Bacalhau: 데이터를 저장 위치로 계산을 가져오는 조정 레이어로, 대량의 데이터를 이동하는 것을 피합니다.
exaBITS: AI 및 계산 집약적 응용 프로그램을 위한 분산 계산 네트워크입니다.
Gensyn.ai: 딥러닝 모델 계산 프로토콜입니다.
3. 간접 비용 절감: Bacalhau, exaBITS와 같은 DePIN 네트워크 및 IPFS/콘텐츠 주소 저장의 장점은 다음과 같습니다:
잠재 데이터의 가용성 해방: 대량 데이터 세트를 전송하는 데 드는 대역폭 비용이 높기 때문에 현재 많은 데이터가 개발되지 않았습니다. 예를 들어, 스포츠 경기장에서 발생하는 대량의 이벤트 데이터. DePIN 프로젝트는 현장에서 데이터를 처리하고 의미 있는 출력만 전송하여 잠재 데이터의 가용성을 발굴할 수 있습니다.
운영 비용 절감: 데이터를 로컬에서 수집하여 데이터 입력, 전송 및 가져오기/내보내기 비용을 낮춥니다.
민감한 데이터 공유에서의 수작업 최소화: 병원 A와 B가 각자의 환자의 민감한 데이터를 조합 분석해야 할 경우, Bacalhau를 사용하여 GPU 계산 능력을 조정하고 민감한 데이터를 직접 로컬에서 처리할 수 있으며, 복잡한 행정 절차를 통해 개인 식별 정보(PII)를 교환할 필요가 없습니다.
기본 데이터 세트를 재계산할 필요 없음: IPFS/콘텐츠 주소 저장은 중복 제거, 추적 및 데이터 검증 기능을 갖추고 있습니다. IPFS의 기능과 비용 효율성에 대한 자세한 내용은 이 기사를 참조하십시오 (https://curiouscat178.substack.com/p/the-non-philosophical-business-case).
AI 생성 요약: AI는 DePIN이 제공하는 경제적인 인프라가 필요합니다. 현재 인프라 시장은 수직 통합된 독점 기업에 의해 지배되고 있습니다. Filecoin, Bacalhau, Render Network, ExaBits와 같은 DePIN 네트워크는 하드웨어 공급자가 될 기회를 민주화하고 경쟁을 도입하며, 암호 경제 설계를 통해 시장 경제 균형을 유지하여 비용을 75%-90% 이상 낮추고 간접 비용을 줄입니다.
2. 창작자 및 인격 검증
문제
최근 조사에 따르면, 50%의 AI 학자들은 AI가 인류에 파괴적인 피해를 줄 가능성이 10%를 초과한다고 생각합니다.
사람들은 경각심을 가져야 하며, AI는 이미 사회적 혼란을 일으켰고 여전히 규제나 기술 규범이 부족합니다. 이러한 상황은 "역방향 볼록성"이라고 불립니다.
예를 들어, 이 Twitter 비디오에서 팟캐스트 진행자 Joe Rogan과 보수 논평가 Ben Shapiro가 영화 '라따뚜이'에 대해 논쟁하고 있지만, 이 비디오는 AI에 의해 생성된 것입니다.
AI의 사회적 영향력은 가짜 블로그, 대화 및 이미지 문제를 넘어섭니다:
2024년 미국 대선 기간 동안, AI가 생성한 딥페이크 선거 콘텐츠가 처음으로 진짜처럼 보이는 효과를 얻었습니다.
상원의원 Elizabeth Warren의 한 비디오는 편집되어 그녀가 "공화당원은 투표할 수 없어야 한다"고 "말하게" 했습니다 (거짓으로 밝혀졌습니다).
음성 합성된 바이든의 목소리가 트랜스젠더 여성을 비판합니다.
한 무리의 예술가들이 Midjourney와 Stability AI를 상대로 집단 소송을 제기하여, 이들이 예술가의 작품을 무단으로 사용하여 AI를 훈련시켰다고 주장하며 저작권을 침해하고 예술가의 생계를 위협하고 있습니다.
AI가 생성한 The Weeknd와 Drake의 합작곡 "Heart on My Sleeve"가 스트리밍 플랫폼에서 인기를 끌었지만, 이후 삭제되었습니다. 새로운 기술이 규범 없이 주류에 진입하면 많은 문제가 발생하며, 저작권 침해는 "역방향 볼록성" 문제에 해당합니다.
그렇다면 우리는 Web3에서 AI 관련 규범을 도입할 수 있을까요?
해결책
암호화된 체인에서 출처 증명을 이용한 인격 증명 및 창작자 증명
블록체인 기술을 진정으로 활용하는 방법은------변경할 수 없는 체인 상의 기록을 포함하는 분산 원장으로, 디지털 콘텐츠의 진위는 콘텐츠 암호화 증명을 통해 검증될 수 있습니다.
디지털 서명은 창작자 증명 및 인격 증명으로 사용됩니다.
딥페이크를 식별하기 위해, 원본 콘텐츠 창작자만의 디지털 서명을 사용하여 암호화 증명을 생성할 수 있습니다. 서명은 창작자만 아는 개인 키를 사용하여 생성되며, 모든 사람에게 공개된 공개 키로 검증할 수 있습니다. 서명이 있으면 콘텐츠가 원본 창작자에 의해 생성되었음을 증명할 수 있으며, 창작자가 인간인지 AI인지에 관계없이 콘텐츠에 대한 변경의 승인 여부를 검증할 수 있습니다.
IPFS와 머클 트리를 이용한 진위 증명
IPFS는 콘텐츠 주소 지정 및 머클 트리를 사용하여 대규모 데이터 세트를 참조하는 분산 프로토콜입니다. 파일 내용이 수신되거나 변경되었음을 증명하기 위해 머클 증명이 생성됩니다. 이는 특정 데이터 블록이 머클 트리에서 위치를 보여주는 해시 문자열입니다. 변경이 있을 때마다 머클 트리에 해시가 추가되어 파일 수정의 증거를 제공합니다.
암호화된 솔루션의 문제점은 인센티브 메커니즘입니다. 딥페이크 제작자를 식별하는 것은 부정적인 사회적 영향을 줄일 수 있지만, 동등한 경제적 이익을 가져오지 않습니다. 이 책임은 Twitter, Meta, Google과 같은 주요 미디어 배급 플랫폼에 있을 가능성이 높습니다. 그렇다면 우리는 왜 블록체인이 필요한가요?
답은 블록체인의 암호화 서명과 진위 증명이 더 효과적이고 검증 가능하며 확실하기 때문입니다. 현재 딥페이크를 감지하는 과정은 주로 머신 러닝 알고리즘 (예: Meta의 "Deepfake Detection Challenge", Google의 "Asymmetric Numeral Systems" (ANS) 및 c2pa: https://c2pa.org/)을 통해 시각적 콘텐츠의 패턴과 이상을 식별하는 방식으로 진행되며, 종종 정확성이 부족하고 딥페이크 발전 속도에 뒤처집니다. 일반적으로 진위를 확인하기 위해 수작업 검토가 필요하며, 이는 비효율적이고 비용이 많이 듭니다.
언젠가 모든 콘텐츠에 암호화 서명이 있다면, 모든 사람이 창작 출처를 검증할 수 있게 되고, 변조 또는 위조 행위를 표시할 수 있는 아름다운 세상이 올 것입니다.
AI 생성 요약: AI는 사회에 중대한 위협을 가할 수 있으며, 특히 딥페이크와 무단 사용 콘텐츠에 대해 Web3 기술, 즉 디지털 서명을 이용한 창작자 증명과 IPFS 및 머클 트리를 이용한 진위 증명은 디지털 콘텐츠의 진위를 검증하고 무단 변경을 방지하여 AI에 규범을 제공할 수 있습니다.
3. AI 민주화
문제
오늘날의 AI는 독점 데이터와 독점 알고리즘으로 구성된 블랙박스입니다. 대형 기술 회사의 LLM의 폐쇄성은 제가 생각하는 "AI 민주화"를 억압하고 있습니다. 즉, 모든 개발자와 사용자들이 LLM 모델에 알고리즘과 데이터를 기여하고 모델이 수익을 낼 때 일부 이익을 얻을 수 있어야 합니다 (관련 기사: https://curiouscat178.substack.com/p/four-foundational-pillars-to-usher).
AI 민주화 = 가시성 (모델에 입력된 데이터와 알고리즘을 볼 수 있음) + 기여 (모델에 데이터나 알고리즘을 기여할 수 있음)
해결책
AI 민주화의 목적은 생성적 AI 모델이 대중에게 개방되고, 대중과 관련 있으며, 대중이 소유하는 것입니다. 아래 표는 AI 현황과 Web3 블록체인 기술을 통해 실현할 수 있는 미래를 비교합니다.
현재------
고객에 대해:
LLM 출력을 단방향으로 수신
개인 데이터가 어떻게 사용되는지 제어할 수 없음
개발자에 대해:
조합성이 낮음
ETL 데이터 처리 추적 불가, 재현 어려움
데이터 기여 출처는 데이터 소유 기관에 한정됨
폐쇄형 모델은 API를 통해 유료로 접근 가능
데이터 출력 공유는 검증 가능성이 부족하며, 데이터 과학자의 80%가 저급 데이터 정리에 소요됨
블록체인과 결합 후------
고객에 대해:
사용자는 피드백(예: 편향, 콘텐츠 검토, 출력에 대한 세부 피드백)을 제공하여 미세 조정의 근거로 사용할 수 있습니다.
사용자는 데이터를 기여하여 모델 수익 후 이익을 얻을 수 있습니다.
개발자에 대해:
분산 데이터 관리 레이어: 크라우드소싱을 통해 반복적인 데이터 태깅 등 데이터 준비 작업을 수행합니다.
가시성 & 조합 & 미세 조정 알고리즘의 능력, 검증 가능한 출처를 통해 (모든 변경 사항의 방지 기록을 볼 수 있음)
데이터 주권 (콘텐츠 주소 지정/IPFS를 통해 구현) 및 알고리즘 주권 (예: Urbit는 데이터와 알고리즘의 P2P 조합 및 이식성을 구현했습니다)
LLM 혁신 가속화, 기본 오픈 소스 모델의 다양한 변형에서 LLM 혁신을 가속화합니다.
재현 가능한 훈련 데이터 출력, 블록체인을 통해 과거 ETL 작업 및 쿼리의 불변 기록 (예: Kamu)을 통해 구현됩니다.
누군가는 Web2의 오픈 소스 플랫폼도 절충안을 제공한다고 하지만, 그 효과는 이상적이지 않으며, 관련 논의는 exaBITS의 블로그에서 확인할 수 있습니다.
AI 생성 요약: 대형 기술 회사의 폐쇄적인 LLM은 "AI 민주화"를 억압하고 있습니다. 즉, 모든 개발자나 사용자가 LLM 모델에 알고리즘과 데이터를 기여하고 모델이 수익을 낼 때 일부 이익을 얻을 수 있어야 합니다. AI는 대중에게 개방되고, 대중과 관련 있으며, 대중이 소유해야 합니다. 블록체인 네트워크를 통해 사용자는 피드백을 제공하고, 모델에 데이터를 기여하여 수익을 얻을 수 있으며, 개발자는 가시성과 검증 가능한 출처를 통해 알고리즘을 조합하고 미세 조정할 수 있습니다. 콘텐츠 주소 지정/IPFS 및 Urbit와 같은 Web3 혁신은 데이터와 알고리즘의 주권을 실현할 것입니다. 블록체인을 통해 과거 ETL 작업 및 쿼리의 불변 기록을 통해 훈련 데이터 출력의 재현 가능성도 가능해질 것입니다.
4. 데이터 기여 보상 메커니즘 설정
문제
오늘날 가장 가치 있는 소비자 데이터는 대형 기술 회사의 독점 자산으로, 그들의 핵심 비즈니스 장벽을 형성합니다. 기술 대기업은 이러한 데이터를 외부와 공유할 동기가 없습니다.
그렇다면 왜 데이터 생성자나 사용자로부터 직접 데이터를 얻지 못할까요? 왜 데이터를 공공 자원으로 만들고, 데이터를 기여하여 데이터 과학자가 사용할 수 있도록 오픈 소스화하지 못할까요?
간단히 말해 인센티브 메커니즘과 조정 메커니즘이 부족하기 때문입니다. 데이터를 유지하고 ETL(추출, 변환 및 로드)을 수행하는 것은 상당한 간접 비용이 발생합니다. 사실, 데이터 저장만으로도 2030년까지 7770억 달러의 가치 있는 산업이 될 것이며, 계산 비용은 포함되지 않았습니다. 아무도 데이터 처리의 작업과 비용을 무상으로 부담하지 않을 것입니다.
OpenAI를 살펴보면, 처음에는 비영리 오픈 소스 모델로 설정되었지만, 수익화의 어려움으로 인해 비용을 충당할 수 없었습니다. 2019년, OpenAI는 Microsoft의 투자를 받아들이지 않을 수 없었고, 알고리즘은 더 이상 대중에게 개방되지 않았습니다. 2024년까지 OpenAI의 수익이 10억 달러에 이를 것으로 예상됩니다 .
해결책
Web3는 "dataDAO"라는 새로운 메커니즘을 도입하여 AI 모델 소유자와 데이터 기여자 간의 수익 재분배를 촉진하고, 크라우드소싱 데이터 기여를 위한 인센티브 레이어를 생성합니다. 분량 제한으로 인해 여기서는 자세히 설명하지 않지만, 아래 두 개의 기사를 읽어보시면 좋습니다:
How DataDAO works/DataDAO 원리, 저자는 Protocol Labs의 HQ Han입니다.
How data contribution and monetization works in web3/web3 데이터 기여와 변신이 어떻게 작동하는지, 이 글에서 dataDAO의 메커니즘, 부족함 및 기회를 심도 있게 논의했습니다.
결론적으로, DePIN은 새로운 경로를 개척하여 Web3와 AI 혁신을 위한 새로운 하드웨어 에너지를 제공합니다. 비록 기술 대기업이 AI 산업을 지배하고 있지만, 신흥 참여자들은 블록체인 기술을 활용하여 경쟁에 참여할 수 있습니다: DePIN 네트워크는 진입 장벽을 낮추는 방법으로 계산 비용을 절감하고, 블록체인의 검증 가능하고 분산된 특성으로 진정한 오픈 AI를 가능하게 하며, dataDAO와 같은 혁신 메커니즘은 데이터 기여를 장려합니다. 블록체인의 불변성과 방지 특성은 창작자 증명을 제공하여 AI의 부정적인 사회적 영향에 대한 우려를 불식시킵니다.