Hack VC 파트너: AI+Crypto의 8대 진정한 장점
저자: Ed Roman, Hack VC 관리 파트너
편집: 1912212.eth, Foresight News
AI + Crypto는 최근 암호화폐 시장에서 주목받고 있는 최전선 분야 중 하나로, 분산형 AI 훈련, GPU DePINs 및 검열 저항 AI 모델 등이 있습니다.
이러한 눈부신 발전 뒤에서 우리는 불가피하게 질문하게 됩니다: 이것이 진정한 기술 혁신인지 아니면 단순히 핫 이슈에 편승하는 것인지? 본 기사는 여러분에게 안개를 걷어내고 암호화 x AI 구상과 그 안의 진정한 도전과 기회를 분석하며, 어떤 것이 공허한 약속인지, 어떤 것이 실현 가능한지를 밝혀줄 것입니다.
구상 #1: 분산형 AI 훈련
체인 상의 AI 훈련 문제는 GPU 간의 고속 통신과 조정이 필요하다는 점입니다. 신경망은 훈련 중 역전파가 필요하기 때문입니다. 이를 위해 Nvidia는 두 가지 혁신(NVLink 및 InfiniBand)을 도입했습니다. 이러한 기술은 GPU 통신을 초고속으로 만들지만, 이는 로컬 기술에 한정되어 있으며 단일 데이터 센터 내에 위치한 GPU 클러스터(50+ 기가비트 속도)에만 적용됩니다.
분산형 네트워크를 도입하면 네트워크 지연과 대역폭 증가로 인해 속도가 갑자기 몇 배 느려질 수 있습니다. 데이터 센터 내의 Nvidia 고속 상호 연결에서 얻은 처리량과 비교할 때, 이러한 속도는 AI 훈련 사례에 있어 불가능합니다.
다음과 같은 혁신이 미래에 희망을 가져올 수 있습니다:
- InfiniBand에서 대규모 분산 훈련이 진행되고 있으며, NVIDIA는 NVIDIA Collective Communications Library를 통해 InfiniBand에서의 분산 비로컬 훈련을 지원하고 있습니다. 그러나 이는 여전히 초기 단계에 있으며, 채택 지표는 아직 확정되지 않았습니다. 거리의 물리 법칙 병목 현상은 여전히 존재하므로 InfiniBand에서의 로컬 훈련이 훨씬 더 빠릅니다.
- 분산 훈련에 대한 새로운 연구가 발표되었으며, 이 연구는 통신 동기화 시간을 줄여 분산 훈련이 미래에 더 실용적일 수 있도록 할 수 있습니다.
- 모델 훈련의 스마트한 분할 및 스케줄링은 성능 향상에 기여합니다. 또한 새로운 모델 아키텍처는 미래의 분산 인프라를 위해 특별히 설계되었을 수 있습니다(Gensyn이 이 분야에서 연구 중입니다).
훈련 데이터 부분도 도전적입니다. 모든 AI 훈련 과정은 대량의 데이터를 처리하는 것을 포함합니다. 일반적으로 모델은 높은 확장성과 성능을 갖춘 중앙 집중식 안전 데이터 저장 시스템에서 훈련됩니다. 이는 수 TB의 데이터를 전송하고 처리해야 하며, 이는 일회성 주기가 아닙니다. 데이터는 일반적으로 노이즈가 많고 오류를 포함하고 있어 모델 훈련 전에 정리하고 사용 가능한 형식으로 변환해야 합니다. 이 단계는 표준화, 필터링 및 결측값 처리를 포함하는 반복 작업을 포함합니다. 이러한 모든 것이 분산 환경에서 심각한 도전에 직면해 있습니다.
훈련 데이터 부분은 반복적이기도 하며, 이는 Web3와 호환되지 않습니다. Open AI는 수천 번의 반복을 거쳐 결과를 얻었습니다. AI 팀 내에서 데이터 과학자의 가장 기본적인 작업 시나리오는 목표 정의, 데이터 준비, 분석 및 정리하여 중요한 통찰력을 추출하고 모델링에 적합하게 만드는 것입니다. 그런 다음 정의된 문제를 해결하기 위해 머신러닝 모델을 개발하고 테스트 데이터 세트를 사용하여 성능을 검증합니다. 이 과정은 반복적입니다: 현재 모델의 성능이 기대에 미치지 못하면 전문가가 데이터 수집 또는 모델 훈련 단계로 돌아가 결과를 개선합니다. 상상해 보세요, 이 과정이 분산 환경에서 진행된다면, 최첨단 기존 프레임워크와 도구가 Web3에 적합하게 만드는 것이 쉽지 않을 것입니다.
체인 상에서 AI 모델을 훈련하는 또 다른 문제는 추론에 비해 이 시장이 훨씬 덜 흥미롭다는 점입니다. 현재 AI 대형 언어 모델의 훈련은 막대한 GPU 계산 자원을 필요로 합니다. 장기적으로 추론은 GPU의 주요 응용 분야가 될 것입니다. 전 세계의 수요를 충족하기 위해 얼마나 많은 AI 대형 언어 모델을 훈련해야 하는지, 이 모델을 사용하는 고객 수와 비교할 때 어느 쪽이 더 많을까요?
구상 #2: 과도한 중복 AI 추론 계산을 통한 합의 도출
암호화와 AI의 또 다른 도전 과제는 AI 추론의 정확성을 검증하는 것입니다. 단일 중앙 집중식 주체를 완전히 신뢰할 수 없기 때문에, 노드에서 부정행위가 발생할 가능성이 있습니다. 이러한 도전은 Web2 AI에서는 존재하지 않지만, 분산 합의 시스템이 없기 때문입니다.
해결책은 중복 계산으로, 여러 노드가 동일한 AI 추론 작업을 반복하여 신뢰가 필요 없는 환경에서 실행할 수 있도록 하여 단일 실패 지점을 피하는 것입니다.
그러나 이 방법의 문제는 고급 AI 칩이 극도로 부족하다는 점입니다. 고급 NVIDIA 칩의 대기 시간은 수년이 걸리며, 이로 인해 가격이 상승했습니다. AI 추론을 여러 노드에서 여러 번 재실행하도록 요구하면 비용이 기하급수적으로 증가하여 많은 프로젝트에 대해 비현실적입니다.
구상 #3: 최근 Web3에 특화된 AI 사용 사례
Web3는 Web3 고객을 위해 독특하고 전문화된 AI 사용 사례를 가져야 한다고 제안하는 사람들이 있습니다. 이는 (예를 들어) AI를 사용하여 DeFi 풀의 위험 점수를 평가하는 Web3 프로토콜, 지갑의 역사 기록에 따라 사용자에게 새로운 프로토콜을 제안하는 Web3 지갑, 또는 AI를 사용하여 비플레이어 캐릭터(NPC)를 제어하는 Web3 게임이 될 수 있습니다.
현재로서는 이는 초기 스타트업 시장(단기적으로)이며, 사용 사례는 여전히 탐색 단계에 있습니다. 몇 가지 도전 과제는 다음과 같습니다:
- 시장 수요가 여전히 초기 단계에 있기 때문에 Web3 네이티브 사용 사례에 필요한 잠재적 AI 거래가 적습니다.
- 고객 수가 적으며, Web2 고객에 비해 Web3 고객은 몇 배 적어 시장의 분산 정도가 낮습니다.
- 고객 자체가 불안정합니다. 그들은 자금이 적은 스타트업이며, 일부 스타트업은 시간이 지남에 따라 사라질 수 있습니다. Web3 고객을 만족시키는 Web3 AI 서비스 제공자는 사라진 고객군을 대체하기 위해 일부 고객군을 다시 확보해야 할 수 있으며, 이는 비즈니스 확장을 매우 도전적으로 만듭니다.
장기적으로 우리는 Web3 네이티브 AI 사용 사례에 대해 매우 긍정적으로 보고 있으며, 특히 AI 에이전트가 더욱 보편화됨에 따라 더욱 그렇습니다. 우리는 미래의 특정 Web3 사용자가 작업을 수행하는 데 도움을 주기 위해 많은 AI 에이전트를 가질 것이라고 상상합니다.
구상 #4: 소비자급 GPU DePIN
소비자급 GPU에 의존하는 분산형 AI 컴퓨팅 네트워크가 많이 있습니다. 소비자급 GPU는 저급 AI 추론 작업이나 지연, 처리량 및 신뢰성이 유연한 소비자 사용 사례에 매우 적합합니다. 그러나 진지한 기업 사용 사례(중요한 시장의 대부분)에 대해서는 가정용 기계에 비해 고객이 더 높은 신뢰성을 요구하며, 더 복잡한 추론 작업이 필요한 경우 일반적으로 더 고급 GPU가 필요합니다. 데이터 센터는 이러한 더 가치 있는 고객 사용 사례에 더 적합합니다.
우리는 소비자급 GPU가 데모에 적합하고, 낮은 신뢰성을 견딜 수 있는 개인 및 스타트업에 적합하다고 생각합니다. 그러나 이러한 고객은 가치가 낮기 때문에 우리는 Web2 기업을 위해 맞춤화된 DePIN이 장기적으로 더 가치 있을 것이라고 생각합니다. 따라서 GPU DePIN 프로젝트는 초기에는 소비자급 하드웨어를 주로 사용하던 것에서 A100/H100 및 클러스터 수준의 가용성을 갖춘 상황으로 발전했습니다.
현실 ------ 암호화폐 x AI의 실제 사용 사례
이제 우리는 진정한 이점을 제공할 수 있는 사용 사례에 대해 논의합니다. 이것들이 진정한 승리이며, 암호화폐 x AI는 명백한 가치를 증가시킬 수 있습니다.
진정한 이점 #1: Web2 고객에게 서비스 제공
맥킨지에 따르면, 분석된 63개 사용 사례에서 생성적 AI는 매년 2.6조에서 4.4조 달러에 해당하는 수익을 증가시킬 수 있습니다. 이는 2021년 영국 GDP 총액인 3.1조 달러와 비교됩니다. 이는 AI의 영향력을 15%에서 40% 증가시킬 것입니다. 만약 우리가 생성적 AI를 현재 사용 사례 외의 다른 작업 소프트웨어에 통합했을 때의 영향을 고려한다면, 그 영향력은 약 두 배 증가할 것으로 추정됩니다.
위의 추정치를 기반으로 계산하면, 전 세계 AI(생성 AI를 넘어)의 총 시장 가치는 수십 조 달러에 이를 수 있습니다. 반면, 오늘날 모든 암호화폐(비트코인 및 모든 알트코인을 포함)의 총 가치는 약 2.7조 달러에 불과합니다. 그러므로 현실을 직시합시다: 단기적으로 AI가 필요한 대다수 고객은 Web2 고객이 될 것이며, 진정으로 AI가 필요한 Web3 고객은 이 2.7조 달러의 작은 부분만 차지할 것입니다(비트코인이 이 시장에서 AI를 필요로 하지 않기 때문에).
Web3 AI 사용 사례는 이제 막 시작되었으며, 현재 이 시장 규모가 얼마나 될지는 불확실합니다. 하지만 한 가지 확실한 것은, 예측 가능한 미래에 Web3 AI는 Web2 시장의 작은 부분만 차지할 것입니다. 우리는 Web3 AI가 여전히 밝은 미래를 가지고 있다고 믿지만, 이는 단지 현재 Web3 AI의 가장 강력한 응용이 Web2 고객에게 서비스를 제공하는 것임을 의미합니다.
Web3 AI로부터 혜택을 받을 수 있는 Web2 고객의 예시는 다음과 같습니다:
- AI 중심의 수직 특화 소프트웨어 회사를 처음부터 구축하는 것(예: Cedar.ai 또는 Observe.ai)
- 자신의 목적을 위해 모델을 미세 조정하는 대기업(예: Netflix)
- 빠르게 성장하는 AI 제공업체(예: Anthropic)
- 기존 제품에 AI를 통합하는 소프트웨어 회사(예: Canva)
이는 상대적으로 안정적인 고객 역할입니다. 고객은 일반적으로 규모가 크고 가치가 있습니다. 그들은 빠르게 파산할 가능성이 적으며, AI 서비스의 거대한 잠재 고객을 대표합니다. Web2 고객에게 서비스를 제공하는 Web3 AI 서비스는 이러한 안정적인 고객군으로부터 혜택을 받을 것입니다.
하지만 왜 Web2 고객이 Web3 스택을 사용하고 싶어할까요? 이 기사의 다음 부분에서 이러한 상황을 설명합니다.
진정한 이점 #2: GPU 사용 비용 절감
GPU DePIN은 충분히 활용되지 않는 GPU 계산 능력을 집합하여 AI 추론에 사용할 수 있도록 합니다. 이 문제를 단순히 비유하자면 "GPU의 Airbnb"입니다.
우리가 GPU DePIN에 대해 흥미를 느끼는 이유는, 앞서 언급한 바와 같이 NVIDIA 칩이 부족하고 현재 AI 추론에 사용할 수 있는 낭비된 GPU 주기가 존재하기 때문입니다. 이러한 하드웨어 소유자는 매몰 비용을 지불하며 현재 장치를 충분히 활용하지 않고 있으므로, 현 상태와 비교하여 훨씬 낮은 비용으로 이러한 부분 GPU를 제공할 수 있습니다. 이는 실제로 하드웨어 소유자에게 "돈을 찾아주는" 것입니다.
예시로는:
- AWS 머신. 오늘날 AWS에서 H100을 임대하려면 1년 임대를 약속해야 하며, 이는 시장 공급이 제한적이기 때문입니다. 이는 낭비를 초래합니다. 왜냐하면 GPU를 매일 365일, 매주 7일 사용하지 않을 수 있기 때문입니다.
- Filecoin 채굴 하드웨어. Filecoin은 대량의 보조금 공급이 있지만 실제 수요는 많지 않습니다. Filecoin은 진정한 제품 시장 적합점을 찾지 못했으며, 따라서 Filecoin 채굴자는 파산 위험에 직면해 있습니다. 이러한 기계는 GPU를 장착하고 있으며, 저급 AI 추론 작업에 재사용될 수 있습니다.
- ETH 채굴 하드웨어. 이더리움이 PoW에서 PoS로 전환하면서, 이는 빠르게 대량의 하드웨어를 방출하여 AI 추론에 재사용될 수 있습니다.
모든 GPU 하드웨어가 AI 추론에 적합한 것은 아닙니다. 이러한 상황의 한 가지 명백한 이유는 구형 GPU가 LLMs에 필요한 GPU 메모리 양을 갖추지 못했기 때문입니다. 그러나 이와 관련하여 도움을 줄 수 있는 몇 가지 흥미로운 혁신이 있습니다. 예를 들어, Exabits의 기술은 활성 신경세포를 GPU 메모리에 로드하고 비활성 신경세포를 CPU 메모리에 로드할 수 있습니다. 그들은 어떤 신경세포가 활성화/비활성화될지를 예측합니다. 이는 저급 GPU가 AI 작업 부하를 처리할 수 있도록 하며, GPU 메모리가 제한적일지라도 가능합니다. 이는 효과적으로 저급 GPU를 AI 추론에 더 유용하게 만듭니다.
Web3 AI DePIN은 시간이 지남에 따라 제품을 발전시키고 기업 수준의 서비스를 제공해야 합니다. 예를 들어, 단일 로그인, SOC 2 준수, 서비스 수준 계약(SLA) 등이 있습니다. 이는 현재 클라우드 서비스 제공업체가 Web2 고객에게 제공하는 서비스와 유사합니다.
진정한 이점 #3: 검열 저항 모델로 OpenAI의 자기 검열 회피
AI 검열 제도에 대한 논의가 많습니다. 예를 들어, 터키는 Open AI를 일시적으로 금지했습니다(그 후 Open AI는 규정을 강화했으며, 그들은 방침을 변경했습니다). 우리는 국가 차원의 검열 제도가 흥미롭지 않다고 생각합니다. 각국은 경쟁력을 유지하기 위해 AI를 채택해야 하기 때문입니다.
Open AI도 자기 검열을 합니다. 예를 들어, Open AI는 NSFW 콘텐츠를 처리하지 않습니다. Open AI는 다음 대통령 선거를 예측하지도 않습니다. 우리는 AI 사용 사례가 흥미로울 뿐만 아니라 시장이 거대하다고 생각하지만, Open AI는 정치적 이유로 이 시장에 접근하지 않습니다.
오픈 소스는 훌륭한 해결책입니다. GitHub 저장소는 주주나 이사회의 영향을 받지 않기 때문입니다. Venice.ai가 그 예로, 개인 정보를 보호하고 검열 저항 방식으로 운영할 것을 약속합니다. Web3 AI는 이러한 오픈 소스 소프트웨어(OSS) 모델을 지원하여 저렴한 GPU 클러스터에서 추론을 수행함으로써 효과적으로 수준을 높일 수 있습니다. 이러한 이유로 우리는 OSS + Web3가 검열 저항 AI를 위한 이상적인 조합이라고 믿습니다.
진정한 이점 #4: OpenAI에 개인 식별 정보를 전송하는 것 회피
대기업은 내부 데이터에 대한 개인 정보 보호 우려가 있습니다. 이러한 고객에게 OpenAI 제3자가 이러한 데이터를 소유하는 것을 신뢰하는 것은 어려울 수 있습니다.
Web3에서는 이러한 기업의 내부 데이터가 갑자기 분산 네트워크에 나타나는 것이 더 우려스러울 수 있습니다(표면적으로). 그러나 AI를 위한 개인 정보 보호 강화 기술에서 혁신이 존재합니다:
신뢰할 수 있는 실행 환경(TEE), 예를 들어 Super Protocol
전동 동형 암호화(FHE), 예를 들어 Fhenix.io(Hack VC 관리의 펀드 포트폴리오 회사) 또는 Inco Network(모두 Zama.ai 지원) 및 Bagel의 PPML
이러한 기술은 여전히 발전 중이며, 곧 출시될 제로 지식(ZK) 및 FHE ASIC을 통해 성능이 지속적으로 향상되고 있습니다. 그러나 장기 목표는 모델을 미세 조정할 때 기업 데이터를 보호하는 것입니다. 이러한 프로토콜이 등장함에 따라 Web3는 개인 정보 보호 AI 계산을 위한 더 매력적인 장소가 될 수 있습니다.
진정한 이점 #5: 오픈 소스 모델의 최신 혁신 활용
지난 수십 년 동안 오픈 소스 소프트웨어는 독점 소프트웨어의 시장 점유율을 잠식해 왔습니다. 우리는 LLM을 어떤 형태의 독점 소프트웨어로 간주하며, 이는 OSS를 파괴할 수 있습니다. 주목할 만한 도전자의 예로는 Llama, RWKV 및 Mistral.ai가 있습니다. 시간이 지남에 따라 이 목록은 확실히 계속 증가할 것입니다(더 포괄적인 목록은 Openrouter.ai에서 확인할 수 있습니다). Web3 AI(OSS 모델 지원)를 활용함으로써 사람들은 이러한 새로운 혁신을 통해 혁신할 수 있습니다.
우리는 시간이 지남에 따라 오픈 소스의 글로벌 개발 팀과 암호화폐 인센티브가 결합하여 오픈 소스 모델 및 그 위에 구축된 에이전트와 프레임워크의 빠른 혁신을 촉진할 수 있다고 믿습니다. AI 에이전트 프로토콜의 한 예는 Theoriq입니다. Theoriq는 OSS 모델을 활용하여 조합 가능한 AI 에이전트 상호 연결 네트워크를 생성하여 더 고급 AI 솔루션을 만들 수 있도록 조립할 수 있습니다.
우리가 이에 대해 확신하는 이유는 과거에 시간이 지남에 따라 대부분의 "개발자 소프트웨어" 혁신이 OSS에 의해 서서히 초월되었기 때문입니다. 마이크로소프트는 한때 독점 소프트웨어 회사였으나, 현재는 GitHub에 기여하는 가장 큰 회사입니다. 이는 이유가 있으며, Databricks, PostGresSQL, MongoDB 및 기타 회사가 독점 데이터베이스를 어떻게 전복했는지를 보면, OSS가 전체 산업을 전복하는 한 예가 됩니다. 따라서 여기에서의 선례는 매우 설득력이 있습니다.
그러나 이와 관련하여 한 가지 문제가 있습니다. 오픈 소스 대형 언어 모델(OSS LLMs)의 한 가지 어려움은 OpenAI가 Reddit 및 뉴욕 타임즈와 같은 일부 조직과 유료 데이터 라이센스 계약을 체결하기 시작했다는 점입니다. 이러한 추세가 계속된다면, 오픈 소스 대형 언어 모델은 데이터 확보의 재정적 장벽으로 인해 경쟁하기 더 어려워질 수 있습니다. Nvidia는 안전한 데이터 공유를 지원하기 위해 비밀 계산에 대한 투자를 더욱 강화할 수 있습니다. 시간이 지나면서 이러한 발전이 드러날 것입니다.
진정한 이점 #6: 고비용 절감 샘플링 또는 ZK 증명을 통한 합의 도출
Web3 AI 추론의 도전 과제 중 하나는 검증입니다. 검증자가 결과를 속여 수익을 얻을 수 있는 기회를 가질 수 있으므로, 추론을 검증하는 것은 중요한 조치입니다. 이러한 부정행위는 실제로 발생하지 않았지만, AI 추론이 아직 초기 단계에 있기 때문에, 이를 억제하기 위한 조치를 취하지 않으면 이는 불가피합니다.
표준 Web3 접근 방식은 여러 검증자가 동일한 작업을 반복하고 결과를 비교하는 것입니다. 앞서 언급했듯이, 이 문제는 현재 고급 Nvidia 칩의 부족으로 인해 AI 추론 비용이 매우 비쌉니다. Web3가 충분히 활용되지 않는 GPU DePIN을 통해 더 낮은 비용의 추론을 제공할 수 있는 점을 고려할 때, 중복 계산은 Web3의 가치 제안을 심각하게 약화시킬 것입니다.
더 유망한 해결책은 체인 외 AI 추론 계산을 위해 ZK 증명을 수행하는 것입니다. 이 경우, 모델이 올바르게 훈련되었는지 또는 추론이 올바르게 실행되었는지를 확인하기 위해 간결한 ZK 증명을 검증할 수 있습니다(이를 zkML이라고 합니다). 예시로는 Modulus Labs와 ZK onduit가 있습니다. ZK 작업은 계산 집약적이기 때문에 이러한 솔루션의 성능은 여전히 초기 단계에 있습니다. 그러나 우리는 ZK 하드웨어 ASIC이 가까운 미래에 출시되면 상황이 개선될 것으로 예상합니다.
더 유망한 접근 방식은 약간 "낙관적" 샘플링 기반 AI 추론 방법입니다. 이 모델에서는 검증자가 생성한 결과의 일부만 검증하면 되지만, 대폭 절감된 경제적 비용이 충분히 높게 설정되어 있어 발견될 경우 검증자의 부정행위에 강력한 경제적 억제 효과를 발휘합니다. 이러한 방식으로 중복 계산을 절약할 수 있습니다.
또 다른 유망한 구상은 Bagel Network가 제안한 수분 및 지문 솔루션입니다. 이는 Amazon Alexa가 수백만 대의 장치에 대해 장치 내 AI 모델 품질 보증 메커니즘을 제공하는 것과 유사합니다.
진정한 이점 #7: OSS를 통한 비용 절감(OpenAI의 이익)
Web3가 AI에 제공하는 다음 기회는 비용 민주화입니다. 지금까지 우리는 DePIN을 통해 GPU 비용을 절감하는 방법에 대해 논의했습니다. 그러나 Web3는 중앙 집중식 Web2 AI 서비스의 이익률(예: OpenAI, 본 기사를 작성할 당시 연간 수익이 10억 달러를 초과함)을 절감할 기회를 제공합니다. 이러한 비용 절감은 OSS 모델을 사용하여 추가적인 절감을 이루는 데서 비롯됩니다. 모델 제작자는 수익을 추구하지 않기 때문입니다.
많은 OSS 모델은 완전히 무료로 유지되어 고객에게 최상의 경제적 이점을 제공합니다. 그러나 일부 OSS 모델은 이러한 수익화 방법을 시도할 수도 있습니다. Hugging Face의 모든 모델 중 4%만이 예산을 가지고 모델을 보조하는 회사에 의해 훈련되었습니다. 나머지 96%의 모델은 커뮤니티에 의해 훈련되었습니다. 이 그룹(96%의 Hugging Face)은 기본적인 실제 비용(계산 비용 및 데이터 비용 포함)을 가지고 있습니다. 따라서 이러한 모델은 어떤 방식으로든 수익화할 필요가 있습니다.
오픈 소스 소프트웨어 모델의 수익화를 위한 몇 가지 제안이 있습니다. 그 중 가장 흥미로운 것 중 하나는 "초기 모델 발행" 개념으로, 모델 자체를 토큰화하고 팀에 일부 토큰을 남겨두며 모델의 미래 수익 흐름을 토큰 보유자에게 전달하는 것입니다. 그러나 이와 관련하여 법적 및 규제 장벽이 분명히 존재합니다.
다른 OSS 모델은 사용을 통해 수익화하려고 할 것입니다. 이 경우 현실이 된다면 OSS 모델은 점점 더 Web2 수익 모델과 유사해질 수 있습니다. 그러나 실제로 시장은 두 부분으로 나뉘어 일부 모델은 여전히 완전히 무료로 제공될 것입니다.
진정한 이점 #8: 분산형 데이터 소스
AI가 직면한 가장 큰 도전 중 하나는 모델을 훈련하기 위한 올바른 데이터를 찾는 것입니다. 우리는 이전에 분산형 AI 훈련이 도전 과제가 있다는 것을 언급했습니다. 그러나 분산형 네트워크를 사용하여 데이터를 얻는 것은 어떨까요(그런 다음 이를 다른 곳에서 훈련하는 데 사용할 수 있습니다. 심지어 전통적인 Web2 장소에서도)?
바로 Grass와 같은 스타트업이 이러한 일을 하고 있습니다. Grass는 "데이터 수집자"로 구성된 분산형 네트워크로, 이들은 기계의 유휴 처리 능력을 데이터 소스에 기여하여 AI 모델 훈련에 필요한 정보를 제공합니다. 가정해 보세요, 규모 면에서 대규모 인센티브 노드 네트워크의 강력한 힘 덕분에 이러한 데이터 소스가 어떤 회사의 내부 데이터 소스보다 더 잘 작동할 수 있습니다. 이는 더 많은 데이터를 얻는 것뿐만 아니라, 데이터를 더 자주 얻어 데이터를 더 관련성 있고 최신 상태로 유지하는 것을 포함합니다. 사실, 분산형 데이터 수집 대군을 저지하는 것은 불가능합니다. 왜냐하면 그들은 본질적으로 분산되어 있으며 단일 IP 주소에 존재하지 않기 때문입니다. 그들은 또한 데이터를 수집한 후 유용하게 만들기 위해 데이터를 정리하고 표준화할 수 있는 네트워크를 가지고 있습니다.
데이터를 확보한 후, 이를 체인에 저장할 위치와 해당 데이터를 사용하여 생성된 LLMs가 필요합니다.
미래에 Web3 AI에서 데이터의 역할은 변화할 수 있습니다. 현재 LLM의 현황은 데이터를 사용하여 사전 훈련된 모델을 사용하고 시간이 지남에 따라 더 많은 데이터를 사용하여 이를 개선하는 것입니다. 그러나 인터넷의 데이터는 실시간으로 변화하기 때문에 이러한 모델은 항상 약간 구식입니다. 따라서 LLM 추론의 응답은 약간 부정확할 수 있습니다.
미래의 발전 방향은 "실시간" 데이터라는 새로운 패러다임일 수 있습니다. 이 개념은 대형 언어 모델(LLM)이 추론 질문을 받을 때, LLM이 실시간으로 인터넷에서 재수집된 데이터를 주입하고 전송할 수 있다는 것입니다. 이렇게 하면 LLM이 최신 데이터를 사용할 수 있습니다. Grass는 이 부분을 연구하고 있습니다.
특별히 감사드립니다: Albert Castellana, Jasper Zhang, Vassilis Tziokas, Bidhan Roy, Rezo, Vincent Weisser, Shashank Yadav, Ali Husain, Nukri Basharuli, Emad Mostaque, David Minarsch, Tommy Shaughnessy, Michael Heinrich, Keccak Wong, Marc Weinstein, Phillip Bonello, Jeff Amico, Ejaaz Ahamadeen, Evan Feng, JW Wang.