AIxDePIN: 뜨거운 트랙의 충돌이 어떤 새로운 기회를 낳을까?

CGV
2024-01-20 14:16:46
수집
Web3 x AI 시리즈 연구 보고서 제2집.

作者:Cynic Shigeru,CGV Research

알고리즘, 컴퓨팅 파워 및 데이터의 힘을 활용하여 AI 기술의 발전은 데이터 처리 및 스마트 결정의 경계를 재정의하고 있습니다. 동시에 DePIN은 중앙 집중식 인프라에서 분산형 블록체인 기반 네트워크로의 패러다임 전환을 나타냅니다.

세계가 디지털 전환으로 나아가는 속도가 빨라짐에 따라, AI와 DePIN(분산형 물리 인프라)은 모든 산업의 변화를 이끄는 기본 기술이 되었습니다. AI와 DePIN의 융합은 기술의 빠른 반복과 광범위한 응용을 촉진할 뿐만 아니라, 더 안전하고 투명하며 효율적인 서비스 모델을 열어 글로벌 경제에 깊은 변화를 가져올 것입니다.

DePIN:분산형으로 가상에서 현실로, 디지털 경제의 중추

DePIN은 분산형 물리 인프라(Decentralized Physical Infrastructure)의 약자입니다. 좁은 의미에서 DePIN은 분산 원장 기술에 의해 지원되는 전통적인 물리 인프라의 분산 네트워크를 주로 지칭합니다. 예를 들어 전력 네트워크, 통신 네트워크, 위치 네트워크 등이 있습니다. 넓은 의미에서 물리 장치에 의해 지원되는 모든 분산 네트워크를 DePIN이라고 할 수 있습니다. 예를 들어 저장 네트워크, 컴퓨팅 네트워크 등이 있습니다.

출처: Messari

Crypto가 금융 측면에서 분산형 혁신을 가져왔다면, DePIN은 실물 경제에서의 분산형 솔루션입니다. PoW 채굴기는 일종의 DePIN이라고 할 수 있습니다. 첫날부터 DePIN은 Web3의 핵심 기둥이었습니다.

AI의 세 가지 요소------알고리즘, 컴퓨팅 파워, 데이터, DePIN이 그 중 두 가지를 독점

인공지능의 발전은 일반적으로 세 가지 핵심 요소에 의존한다고 여겨집니다: 알고리즘, 컴퓨팅 파워 및 데이터. 알고리즘은 AI 시스템을 구동하는 수학적 모델과 프로그램 논리를 의미하고, 컴퓨팅 파워는 이러한 알고리즘을 실행하는 데 필요한 계산 자원을 의미하며, 데이터는 AI 모델을 훈련하고 최적화하는 기초입니다.

세 가지 요소 중 어떤 것이 가장 중요할까요? chatGPT가 등장하기 전에는 일반적으로 알고리즘이 가장 중요하다고 여겨졌습니다. 그렇지 않았다면 학술 회의와 저널 논문이 알고리즘 미세 조정으로 가득 차지 않았을 것입니다. 그러나 chatGPT와 그 지능을 뒷받침하는 대형 언어 모델(LLM)이 등장한 이후 사람들은 후자의 중요성을 깨닫기 시작했습니다. 방대한 컴퓨팅 파워는 모델이 탄생하는 전제 조건이며, 데이터의 질과 다양성은 강력하고 효율적인 AI 시스템을 구축하는 데 필수적입니다. 반면 알고리즘에 대한 요구는 예전처럼 세밀하지 않게 되었습니다.

대형 모델 시대에 AI는 정교함에서 대규모로 변화하고 있으며, 컴퓨팅 파워와 데이터에 대한 수요는 날로 증가하고 있습니다. DePIN은 이를 제공할 수 있습니다. 토큰 인센티브는 롱테일 시장을 자극하고, 방대한 소비자급 컴퓨팅 파워와 저장소는 대형 모델에 최상의 영양분이 될 것입니다.

AI의 분산화는 선택 사항이 아니라 필수 사항

물론 누군가는 물어볼 것입니다. AWS 데이터 센터에는 컴퓨팅 파워와 데이터가 모두 있으며, 안정성 및 사용자 경험 측면에서 DePIN보다 우수한데, 왜 중앙 집중식 서비스가 아닌 DePIN을 선택해야 할까요?

이러한 주장은 일리가 있습니다. 현재 거의 모든 대형 모델은 대형 인터넷 기업에 의해 직접 또는 간접적으로 개발되고 있으며, chatGPT의 뒤에는 Microsoft가 있고, Gemini의 뒤에는 Google이 있습니다. 중국의 인터넷 대기업은 거의 모두 대형 모델을 보유하고 있습니다. 왜 그럴까요? 대형 인터넷 기업만이 충분한 양질의 데이터와 재정적 지원을 통해 컴퓨팅 파워를 확보할 수 있기 때문입니다. 그러나 이는 잘못된 생각입니다. 사람들은 더 이상 인터넷 거대 기업에 의해 모든 것이 조종당하고 싶지 않습니다.

한편으로, 중앙 집중식 AI는 데이터 프라이버시와 보안 위험을 가지고 있으며, 검열과 통제를 받을 수 있습니다. 다른 한편으로, 인터넷 거대 기업이 만든 AI는 사람들의 의존성을 더욱 강화하고, 시장 집중화를 초래하며, 혁신 장벽을 높입니다.

출처: https://www.gensyn.ai/

인류는 AI 시대의 마르틴 루터가 필요하지 않습니다. 사람들은 신과 직접 대화할 권리가 있어야 합니다.

비즈니스 관점에서 본 DePIN: 비용 절감과 효율 증대가 핵심

분산화와 중앙 집중화의 가치관 논쟁을 떠나서, 비즈니스 관점에서 DePIN을 AI에 사용하는 것은 여전히 장점이 있습니다.

우선, 인터넷 거대 기업이 많은 고급 그래픽 카드 자원을 보유하고 있지만, 민간에 분산된 소비자급 그래픽 카드 조합도 상당한 컴퓨팅 네트워크를 구성할 수 있다는 점을 명확히 인식해야 합니다. 즉, 컴퓨팅 파워의 롱테일 효과입니다. 이러한 소비자급 그래픽 카드는 실제로 높은 유휴율을 가지고 있습니다. DePIN이 제공하는 인센티브가 전기 요금을 초과하기만 하면, 사용자는 네트워크에 컴퓨팅 파워를 기여할 동기가 생깁니다. 동시에 모든 물리적 시설은 사용자 자신이 관리하므로, DePIN 네트워크는 중앙 집중식 공급자가 피할 수 없는 운영 비용을 부담할 필요가 없으며, 프로토콜 설계 자체에만 집중하면 됩니다.

데이터 측면에서, DePIN 네트워크는 엣지 컴퓨팅 등의 방법을 통해 잠재적인 데이터의 유용성을 해방하고 전송 비용을 낮출 수 있습니다. 또한 대부분의 분산 저장 네트워크는 자동 중복 제거 기능을 갖추고 있어 AI 훈련 데이터 정제 작업을 줄여줍니다.

마지막으로, DePIN이 가져오는 암호 경제학은 시스템의 내결함성을 강화하여 제공자, 소비자 및 플랫폼의 삼중 승리를 실현할 수 있는 가능성을 제공합니다.

출처: UCLA

믿지 않으신다면, UCLA의 최신 연구에 따르면 동일한 비용으로 분산형 컴퓨팅을 사용하는 것이 전통적인 GPU 클러스터보다 2.75배의 성능을 달성했다고 합니다. 구체적으로, 1.22배 빨라지고 4.83배 저렴합니다.

험난한 길: AIxDePIN이 직면할 도전 과제는 무엇인가?

We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard.

------John Fitzgerald Kennedy

DePIN의 분산 저장 및 분산 컴퓨팅을 신뢰 없이 인공지능 모델을 구축하는 것은 여전히 많은 도전 과제가 있습니다.

작업 검증

본질적으로, 딥러닝 모델의 계산과 PoW 채굴은 모두 일반 계산이며, 가장 기본적으로는 게이트 회로 간의 신호 변화입니다. 거시적으로 볼 때, PoW 채굴은 "무용의 계산"으로, 수많은 난수를 생성하고 해시 함수를 계산하여 n개의 0으로 시작하는 해시 값을 도출하려고 합니다. 반면 딥러닝 계산은 "유용한 계산"으로, 순방향 및 역방향 유도를 통해 딥러닝의 각 층의 매개변수 값을 계산하여 효율적인 AI 모델을 구축합니다.

사실, PoW 채굴과 같은 "무용의 계산"은 해시 함수를 사용하여 원상에서 이미지를 계산하는 것은 쉽지만, 이미지를 원상으로 계산하는 것은 어렵기 때문에 누구나 쉽게 빠르게 계산의 유효성을 검증할 수 있습니다. 그러나 딥러닝 모델의 계산은 계층 구조로 인해 각 층의 출력이 다음 층의 입력으로 사용되므로, 계산의 유효성을 검증하려면 이전의 모든 작업을 수행해야 하며, 간단하고 효과적으로 검증할 수 없습니다.

출처: AWS

작업 검증은 매우 중요합니다. 그렇지 않으면 계산 제공자는 계산을 수행하지 않고 무작위로 생성된 결과를 제출할 수 있습니다.

한 가지 아이디어는 서로 다른 서버가 동일한 계산 작업을 수행하게 하여 반복 실행하고 결과가 동일한지 검증하는 것입니다. 그러나 대부분의 모델 계산은 비결정적이므로 완전히 동일한 계산 환경에서도 동일한 결과를 재현할 수 없으며, 통계적 의미에서 유사성을 달성할 수 있습니다. 또한 반복 계산은 비용을 빠르게 상승시켜 DePIN의 비용 절감 및 효율 증대의 핵심 목표와 일치하지 않습니다.

또 다른 아이디어는 낙관적 메커니즘으로, 결과가 유효한 계산을 거쳤다고 믿고, 누구나 계산 결과를 검증할 수 있도록 하며, 오류가 발견되면 사기 증거를 제출할 수 있도록 하는 것입니다. 프로토콜은 사기자를 처벌하고 신고자에게 보상을 제공합니다.

병렬화

앞서 언급했듯이, DePIN이 주로 롱테일 소비자급 컴퓨팅 시장을 자극하기 때문에 단일 장치가 제공할 수 있는 컴퓨팅 파워는 제한적입니다. 대형 AI 모델의 경우 단일 장치에서 훈련하는 데 시간이 매우 오래 걸리므로 병렬화 방법을 통해 훈련 시간을 단축해야 합니다.

딥러닝 훈련의 병렬화에서 주요한 어려움은 전후 작업 간의 의존성입니다. 이러한 의존 관계는 병렬화를 어렵게 만듭니다.

현재 딥러닝 훈련의 병렬화는 주로 데이터 병렬화와 모델 병렬화로 나뉩니다.

데이터 병렬화는 데이터를 여러 대의 머신에 분산시키고 각 머신이 모델의 모든 매개변수를 저장하며, 로컬 데이터를 사용하여 훈련한 후 각 머신의 매개변수를 집계하는 것입니다. 데이터 병렬화는 데이터 양이 많을 때 효과적이지만, 매개변수를 집계하기 위해 동기 통신이 필요합니다.

모델 병렬화는 모델 크기가 너무 커서 단일 머신에 담을 수 없을 때, 모델을 여러 대의 머신에 분할하여 각 머신이 모델의 일부 매개변수를 저장하는 것입니다. 순방향 및 역방향 전파 시 서로 다른 머신 간의 통신이 필요합니다. 모델 병렬화는 모델이 클 때 유리하지만, 순방향 및 역방향 전파 시 통신 비용이 큽니다.

서로 다른 층 간의 그래디언트 정보는 동기 업데이트와 비동기 업데이트로 나눌 수 있습니다. 동기 업데이트는 간단하고 직접적이지만 대기 시간을 증가시킵니다. 비동기 업데이트 알고리즘은 대기 시간이 짧지만 안정성 문제를 초래할 수 있습니다.

출처: Stanford University, Parallel and Distributed Deep Learning

프라이버시

전 세계적으로 개인 프라이버시 보호에 대한 열풍이 일고 있으며, 각국 정부는 개인 데이터 프라이버시 보호를 강화하고 있습니다. AI는 공개 데이터 세트를 대량으로 사용하지만, 실제로 서로 다른 AI 모델을 구별하는 것은 각 기업의 독점 사용자 데이터입니다.

훈련 과정에서 독점 데이터의 이점을 얻으면서도 프라이버시를 노출하지 않으려면 어떻게 해야 할까요? 구축된 AI 모델의 매개변수가 유출되지 않도록 보장하려면 어떻게 해야 할까요?

이는 프라이버시의 두 가지 측면, 데이터 프라이버시와 모델 프라이버시입니다. 데이터 프라이버시는 사용자를 보호하고, 모델 프라이버시는 모델을 구축하는 조직을 보호합니다. 현재 상황에서는 데이터 프라이버시가 모델 프라이버시보다 훨씬 더 중요합니다.

여러 가지 솔루션이 프라이버시 문제를 해결하기 위해 시도되고 있습니다. 연합 학습은 데이터의 출처에서 훈련을 수행하여 데이터를 로컬에 두고 모델 매개변수를 전송하여 데이터 프라이버시를 보장합니다. 제로 지식 증명은 후발 주자로 떠오를 가능성이 있습니다.

사례 분석: 시장에 어떤 우수한 프로젝트가 있나요?

Gensyn

Gensyn은 AI 모델 훈련을 위한 분산 컴퓨팅 네트워크입니다. 이 네트워크는 Polkadot 기반의 레이어 블록체인을 사용하여 딥러닝 작업이 올바르게 수행되었는지 검증하고, 명령을 통해 지불을 트리거합니다. 2020년에 설립되었으며, 2023년 6월에는 4,300만 달러의 A 라운드 자금을 공개했습니다. a16z가 주도했습니다.

Gensyn은 수행된 작업의 증명서를 구축하기 위해 그래디언트 기반 최적화 프로세스의 메타데이터를 사용하며, 다중 밀도, 그래프 기반의 정밀 프로토콜과 교차 평가자가 일관되게 실행하여 검증 작업을 재실행하고 일관성을 비교할 수 있도록 하며, 최종적으로 체인 자체가 계산의 유효성을 확인합니다. 작업 검증의 신뢰성을 더욱 강화하기 위해 Gensyn은 스테이킹을 도입하여 인센티브를 생성합니다.

시스템에는 제출자, 해결자, 검증자 및 신고자라는 네 가지 참여자가 있습니다.

  • 제출자는 시스템의 최종 사용자로, 계산할 작업을 제공하고 완료된 작업 단위에 대해 지불합니다.
  • 해결자는 시스템의 주요 작업자로, 모델 훈련을 수행하고 검증자가 확인할 수 있도록 증명을 생성합니다.
  • 검증자는 비결정적 훈련 프로세스를 결정적 선형 계산과 연결하는 핵심으로, 일부 해결자의 증명을 복제하고 거리와 예상 임계값을 비교합니다.
  • 신고자는 마지막 방어선으로, 검증자의 작업을 검사하고 도전하며, 도전이 통과되면 보상을 받습니다.

해결자는 스테이킹을 해야 하며, 신고자는 해결자의 작업을 검증하고 악의적 행동을 발견하면 도전합니다. 도전이 통과되면 해결자의 스테이킹 토큰이 몰수되고 신고자는 보상을 받습니다.

Gensyn의 예측에 따르면, 이 솔루션은 훈련 비용을 중앙 집중식 공급자의 1/5로 줄일 수 있을 것으로 기대됩니다.

출처: Gensyn

FedML

FedML은 어디서나 어떤 규모로든 분산형 및 협업형 AI를 수행하기 위한 분산 협업 머신러닝 플랫폼입니다. 보다 구체적으로, FedML은 머신러닝 모델을 훈련, 배포, 모니터링 및 지속적으로 개선할 수 있는 MLOps 생태계를 제공하며, 프라이버시를 보호하는 방식으로 데이터, 모델 및 컴퓨팅 자원에서 협업할 수 있습니다. 2022년에 설립된 FedML은 2023년 3월에 600만 달러의 시드 라운드 자금을 공개했습니다.

FedML은 고급 API와 기본 API를 각각 나타내는 FedML-API와 FedML-core라는 두 가지 핵심 구성 요소로 구성됩니다.

FedML-core는 분산 통신 및 모델 훈련이라는 두 개의 독립 모듈을 포함합니다. 통신 모듈은 서로 다른 작업자/클라이언트 간의 기본 통신을 담당하며, MPI를 기반으로 합니다. 모델 훈련 모듈은 PyTorch를 기반으로 합니다.

FedML-API는 FedML-core 위에 구축됩니다. FedML-core를 통해 클라이언트 지향 프로그래밍 인터페이스를 채택하여 새로운 분산 알고리즘을 쉽게 구현할 수 있습니다.

FedML 팀의 최신 작업에 따르면, 소비자급 GPU RTX 4090에서 FedML Nexus AI를 사용하여 AI 모델 추론을 수행하면 A100보다 20배 저렴하고 1.88배 빠릅니다.

출처: FedML

미래 전망: DePIN이 AI의 민주화를 가져오다

언젠가 AI가 AGI로 발전하게 되면, 그때 컴퓨팅 파워는 사실상의 일반 통화가 될 것이며, DePIN은 이 과정을 앞당길 것입니다.

AI와 DePIN의 융합은 새로운 기술 성장점을 열어 인공지능 발전에 큰 기회를 제공합니다. DePIN은 AI에 방대한 분산형 컴퓨팅 파워와 데이터를 제공하여 더 대규모 모델 훈련을 지원하고, 더 강력한 지능을 실현하는 데 기여합니다. 동시에 DePIN은 AI가 더욱 개방적이고 안전하며 신뢰할 수 있는 방향으로 발전하도록 하여 단일 중앙 집중식 인프라에 대한 의존도를 줄입니다.

미래를 내다보면, AI와 DePIN은 지속적으로 협력하여 발전할 것입니다. 분산 네트워크는 초대형 모델 훈련을 위한 강력한 기반을 제공하며, 이러한 모델은 DePIN의 응용에서 중요한 역할을 할 것입니다. 프라이버시와 보안을 보호하는 동시에 AI는 DePIN 네트워크 프로토콜과 알고리즘의 최적화를 지원할 것입니다. 우리는 AI와 DePIN이 더 효율적이고 공정하며 신뢰할 수 있는 디지털 세계를 가져오기를 기대합니다.

본 글은 Web3xAI 시리즈 보고서의 두 번째 편이며, CGV Research 팀은 "Web3와 인공지능(AI)의 융합" 주제를 중심으로 지속적으로 심층 연구를 진행하여 우수한 콘텐츠를 발굴할 예정입니다. 많은 기대 부탁드립니다.

Reference

https://web.cs.ucla.edu/~harryxu/papers/dorylus-osdi21.pdf

https://web.stanford.edu/~rezab/classes/cme323/S16/projectsreports/hedgeusmani.pdf

https://gensyn.ai/

https://blog.fedml.ai/scalellm-unlocking-llama2-13b-llm-inference-on-consumer-gpu-rtx-4090-powered-by-fedml-nexus-ai/

AIFocus Accelerator에 대하여

AIFocus Accelerator는 2023년 12월에 설립되었으며, CGV와 Web3 Labs가 공동으로 홍콩에서 발족한 Web3와 인공지능(AI) 교차 분야에 집중하는 스타트업 프로젝트 가속기입니다. "선 투자, 후 가속"을 서비스 원칙으로 하며, 투자 의향이 확인된 후에만 가속기가 프로젝트 발전의 다양한 단계에 따라 미디어 홍보, 산업 정상 회의 참여 조직, 온라인 협력, 주제별 로드쇼 등의 맞춤형 서비스 내용을 제공합니다. 선견지명이 있는 사고와 상업적 전망을 가진 Web3와 AI 분야의 융합 혁신 프로젝트를 발굴하고 지원하여 빠른 발전을 도와줍니다. 현재 약 30여 개의 투자 기관, 인큐베이터, 연구소가 AIFocus Accelerator에 참여하고 있으며, 명단은 선별 확인 후 순차적으로 발표될 예정입니다.

Cryptogram Venture (CGV)에 대하여:

CGV (Cryptogram Venture)는 일본 도쿄에 본사를 둔 암호화 투자 기관으로, 라이센스가 있는 엔화 스테이블코인 JPYW를 투자 및 인큐베이팅합니다. 또한, CGV FoF는 여러 글로벌 유명 암호화 펀드의 LP입니다. 2022년 이후 CGV는 일본 Web3 해커톤(TWSH)을 두 차례 성공적으로 개최하였으며, 일본 문부과학성, 게이오 대학, NTT Docomo 등의 기관과 전문가의 공동 지원을 받았습니다. 현재 CGV는 홍콩, 싱가포르, 뉴욕 등지에 지사를 두고 있습니다.

체인캐처(ChainCatcher)는 독자들에게 블록체인을 이성적으로 바라보고, 리스크 인식을 실제로 향상시키며, 다양한 가상 토큰 발행 및 조작에 경계해야 함을 상기시킵니다. 사이트 내 모든 콘텐츠는 시장 정보나 관련 당사자의 의견일 뿐이며 어떠한 형태의 투자 조언도 제공하지 않습니다. 만약 사이트 내에서 민감한 정보를 발견하면 “신고하기”를 클릭하여 신속하게 처리할 것입니다.
banner
체인캐처 혁신가들과 함께하는 Web3 세상 구축