IOSG:GPU 공급 위기, AI 스타트업의 돌파구
저자: Mohit Pandit, IOSG Ventures
요약
GPU 부족은 현실이며, 수요와 공급이 긴장 상태에 있지만, 충분히 활용되지 않는 GPU 수량이 현재의 공급 부족 요구를 충족할 수 있습니다.
클라우드 컴퓨팅 참여를 촉진하기 위한 인센티브 레이어가 필요하며, 궁극적으로 추론 또는 훈련에 사용되는 계산 작업을 조정해야 합니다. DePIN 모델은 이러한 용도에 적합합니다.
공급자의 인센티브 덕분에 계산 비용이 낮아져 수요자는 이를 매력적으로 느낍니다.
모든 것이 좋은 것은 아니며, Web3 클라우드를 선택할 때 특정 균형을 이루어야 합니다: 예를 들어 '지연'입니다. 전통적인 GPU 클라우드에 비해 보험, 서비스 수준 계약(Service Level Agreements) 등과 같은 균형도 고려해야 합니다.
DePIN 모델은 GPU 가용성 문제를 해결할 잠재력이 있지만, 분산 모델은 상황을 개선하지 않습니다. 수요가 기하급수적으로 증가하는 상황에서, 분산 공급은 공급이 없는 것과 같습니다.
신규 시장 참여자의 수를 고려할 때, 시장 집합은 불가피합니다.
서론
우리는 기계 학습과 인공지능의 새로운 시대의 경계에 있습니다. AI는 다양한 형태로 존재해 왔지만(예: 세탁기와 같은 인간이 할 수 있는 일을 수행하도록 지시받는 컴퓨터 장치), 우리는 이제 복잡한 인지 모델의 출현을 목격하고 있습니다. 이러한 모델은 지능적인 인간 행동이 필요한 작업을 수행할 수 있습니다. 주목할 만한 예로는 OpenAI의 GPT-4와 DALL-E 2, 그리고 구글의 Gemini가 있습니다.
빠르게 성장하는 인공지능(AI) 분야에서 우리는 발전의 두 가지 측면, 즉 모델 훈련과 추론을 인식해야 합니다. 추론은 AI 모델의 기능과 출력을 포함하고, 훈련은 지능적인 모델을 구축하는 데 필요한 복잡한 과정을 포함합니다(기계 학습 알고리즘, 데이터 세트 및 계산 능력 포함).
GPT-4를 예로 들면, 최종 사용자가 관심 있는 것은 추론입니다: 텍스트 입력을 기반으로 모델에서 출력을 얻는 것입니다. 그러나 이러한 추론의 품질은 모델 훈련에 달려 있습니다. 효과적인 AI 모델을 훈련하기 위해 개발자는 포괄적인 기본 데이터 세트와 막대한 계산 능력을 확보해야 합니다. 이러한 자원은 주로 OpenAI, 구글, 마이크로소프트 및 AWS와 같은 업계 거대 기업에 집중되어 있습니다.
공식은 간단합니다: 더 나은 모델 훈련 >> AI 모델의 추론 능력 향상 >> 더 많은 사용자 유치 >> 추가 훈련을 위한 자원 증가.
이 주요 플레이어들은 대규모 기본 데이터 세트에 접근할 수 있으며, 더 중요한 것은 막대한 계산 능력을 통제하고 있어 신생 개발자에게 진입 장벽을 만듭니다. 따라서 신규 진입자는 경제적으로 실행 가능한 규모와 비용으로 충분한 데이터에 접근하거나 필요한 계산 능력을 활용하기 어려운 경우가 많습니다. 이러한 상황을 고려할 때, 우리는 네트워크가 자원 접근의 민주화에 큰 가치를 지닌다고 볼 수 있으며, 이는 주로 대규모 계산 자원 확보 및 비용 절감과 관련이 있습니다.
GPU 공급 문제
NVIDIA의 CEO인 젠슨 황은 2019년 CES에서 "모어의 법칙은 끝났다"고 말했습니다. 오늘날의 GPU는 극도로 활용되지 않고 있습니다. 심지어 딥러닝/훈련 주기 중에도 GPU는 충분히 활용되지 않습니다.
다음은 다양한 작업 부하의 전형적인 GPU 활용률 수치입니다:
유휴(방금 Windows 운영 체제로 시작): 0-2%
일반 생산 작업(작문, 간단한 브라우징): 0-15%
비디오 재생: 15 - 35%
PC 게임: 25 - 95%
그래픽 디자인/사진 편집 활성 작업 부하(포토샵, 일러스트레이터): 15 - 55%
비디오 편집(활성): 15 - 55%
비디오 편집(렌더링): 33 - 100%
3D 렌더링(CUDA / OptiX): 33 - 100% (종종 Win 작업 관리자가 잘못 보고함 - GPU-Z 사용)
대부분의 GPU를 장착한 소비자 장치는 상위 세 가지 범주에 속합니다.
이미지 GPU 런타임 활용률 %. 출처: Weights and Biases
위의 상황은 하나의 문제를 지적합니다: 계산 자원 활용이 좋지 않다는 것입니다.
소비자 GPU의 용량을 더 잘 활용할 필요가 있으며, GPU 활용률이 최고조에 달할 때조차도 이는 최적이 아닙니다. 이는 미래에 수행해야 할 두 가지 작업을 명확히 합니다:
자원(GPU) 집합
훈련 작업의 병렬화
현재 사용할 수 있는 하드웨어 유형은 공급을 위해 4가지 유형이 있습니다:
· 데이터 센터 GPU(예: Nvidia A100s)
· 소비자 GPU(예: Nvidia RTX3060)
· 맞춤형 ASIC(예: Coreweave IPU)
· 소비자 SoC(예: 애플 M2)
ASIC을 제외하고(특정 목적을 위해 구축되기 때문에), 다른 하드웨어는 가장 효율적으로 활용되도록 집합될 수 있습니다. 많은 이러한 칩이 소비자와 데이터 센터에 분산되어 있는 만큼, 공급자의 DePIN 모델 집합은 실행 가능한 경로일 수 있습니다.
GPU 생산은 피라미드 구조입니다; 소비자급 GPU의 생산량이 가장 높고, NVIDIA A100s 및 H100s와 같은 고급 GPU의 생산량이 가장 낮습니다(하지만 성능은 더 높습니다). 이러한 고급 칩을 생산하는 비용은 소비자 GPU의 15배이지만, 때로는 15배의 성능을 제공하지 않습니다.
오늘날 전체 클라우드 컴퓨팅 시장 가치는 약 4830억 달러이며, 향후 몇 년 동안 약 27%의 복합 연간 성장률로 성장할 것으로 예상됩니다. 2023년에는 약 130억 시간의 ML 계산 수요가 있을 것이며, 현재 기준 요금에 따르면 이는 2023년 ML 계산의 약 560억 달러 지출에 해당합니다. 이 전체 시장도 빠르게 성장하고 있으며, 매 3개월마다 2배 성장하고 있습니다.
GPU 수요
계산 수요는 주로 AI 개발자(연구원 및 엔지니어)에서 발생합니다. 그들의 주요 요구 사항은: 가격(저비용 계산), 규모(대량 GPU 계산) 및 사용자 경험(접근 용이성 및 사용 용이성)입니다. 지난 2년 동안 AI 기반 애플리케이션에 대한 수요 증가와 ML 모델의 발전으로 인해 GPU 수요가 폭발적으로 증가했습니다. ML 모델을 개발하고 실행하려면:
대량의 계산(여러 GPU 또는 데이터 센터에 접근하여)
모델 훈련, 미세 조정 및 추론을 수행할 수 있어야 하며, 각 작업은 대량의 GPU에서 병렬로 실행됩니다.
계산 관련 하드웨어 지출은 2021년 170억 달러에서 2025년 2850억 달러로 증가할 것으로 예상되며(약 102%의 복합 연간 성장률), ARK는 2030년까지 계산 관련 하드웨어 지출이 1.7조 달러에 이를 것으로 예상합니다(43%의 복합 연간 성장률).
ARK 리서치
대량의 LLM이 혁신 단계에 있으며, 경쟁이 더 많은 매개변수에 대한 계산 수요를 촉진하고, 재훈련이 이루어짐에 따라, 우리는 향후 몇 년 동안 고품질 계산에 대한 지속적인 수요를 예상할 수 있습니다.
새로운 GPU 공급 긴축 속에서 블록체인은 어디에서 역할을 할 것인가?
자원이 부족할 때, DePIN 모델은 다음과 같은 도움을 제공합니다:
공급자를 시작하고 대량의 공급을 생성
작업을 조정하고 완료
작업이 올바르게 완료되도록 보장
작업을 완료한 제공자에게 올바른 보상 제공
소비자, 기업, 고성능 등 모든 유형의 GPU를 집합할 때 활용 측면에서 문제가 발생할 수 있습니다. 계산 작업이 분할될 때, A100 칩은 단순한 계산을 수행해서는 안 됩니다. GPU 네트워크는 그들이 네트워크에 포함해야 한다고 생각하는 GPU 유형을 결정해야 하며, 이는 그들의 시장 진입 전략에 따라 다릅니다.
계산 자원이 본질적으로 분산되어 있을 때(때로는 전 세계적으로), 사용자가 또는 프로토콜 자체가 어떤 유형의 계산 프레임워크를 사용할지를 결정해야 합니다. 제공자는 io.net과 같은 시스템을 통해 사용자가 3가지 계산 프레임워크 중에서 선택할 수 있도록 합니다: Ray, Mega-Ray 또는 Kubernetes 클러스터를 배포하여 컨테이너에서 계산 작업을 실행합니다. Apache Spark와 같은 더 많은 분산 계산 프레임워크도 있지만, Ray가 가장 많이 사용됩니다. 선택한 GPU가 계산 작업을 완료하면, 출력이 재구성되어 훈련된 모델을 제공합니다.
잘 설계된 토큰 모델은 GPU 제공자의 계산 비용을 보조하며, 많은 개발자(수요자)는 이러한 솔루션이 더 매력적이라고 느낄 것입니다. 분산 계산 시스템은 본질적으로 지연이 있습니다. 계산 분해와 출력 재구성이 존재합니다. 따라서 개발자는 모델 훈련의 비용 효율성과 필요한 시간 사이에서 균형을 이루어야 합니다.
분산 계산 시스템은 자체 체인이 필요할까?
네트워크는 두 가지 방식으로 운영될 수 있습니다:
작업(또는 계산 주기)당 요금 청구 또는 시간당 요금 청구
시간 단위당 요금 청구
첫 번째 방법은 Gensyn이 시도하는 작업 증명 체인과 유사한 것을 구축할 수 있으며, 여기서 다양한 GPU가 "작업"을 분담하고 보상을 받습니다. 더 신뢰할 수 없는 모델을 위해, 그들은 시스템의 무결성을 유지하는 대가로 보상을 받는 검증자와 고발자의 개념을 가지고 있습니다. 이는 해결자가 생성한 증명에 기반합니다.
또 다른 작업 증명 시스템은 Exabits로, 이는 작업 분할이 아니라 전체 GPU 네트워크를 단일 슈퍼 컴퓨터로 간주합니다. 이 모델은 대형 LLM에 더 적합해 보입니다.
Akash Network는 GPU 지원을 추가하고 이 분야에 GPU를 집합하기 시작했습니다. 그들은 상태(완료된 작업을 보여주는 GPU 제공자)에 대해 합의하기 위한 기본 L1, 시장 레이어, 그리고 사용자 애플리케이션의 배포 및 확장을 관리하기 위한 Kubernetes 또는 Docker Swarm과 같은 컨테이너 오케스트레이션 시스템을 가지고 있습니다.
시스템이 신뢰할 수 없다면, 작업 증명 체인 모델이 가장 효과적일 것입니다. 이는 프로토콜의 조정과 무결성을 보장합니다.
반면, io.net과 같은 시스템은 자신을 체인으로 구축하지 않았습니다. 그들은 GPU 가용성의 핵심 문제를 해결하기로 선택하고, 시간 단위(시간당)로 고객에게 요금을 청구합니다. 그들은 본질적으로 GPU를 "임대"하고 특정 임대 기간 동안 자유롭게 사용할 수 있기 때문에 검증 가능성 레이어가 필요하지 않습니다. 프로토콜 자체는 작업을 분할하지 않으며, 개발자가 Ray, Mega-Ray 또는 Kubernetes와 같은 오픈 소스 프레임워크를 사용하여 이를 수행합니다.
Web2와 Web3 GPU 클라우드
Web2에는 GPU 클라우드 또는 GPU 서비스 분야에 많은 참여자가 있습니다. 이 분야의 주요 플레이어로는 AWS, CoreWeave, PaperSpace, Jarvis Labs, Lambda Labs, 구글 클라우드, 마이크로소프트 Azure 및 OVH 클라우드가 있습니다.
이는 전통적인 클라우드 비즈니스 모델로, 고객은 계산이 필요할 때 시간 단위(보통 1시간)로 GPU(또는 여러 GPU)를 임대할 수 있습니다. 다양한 사용 사례에 적합한 여러 가지 솔루션이 있습니다.
Web2와 Web3 GPU 클라우드 간의 주요 차이점은 다음과 같은 몇 가지 매개변수에 있습니다:
- 클라우드 설정 비용
토큰 인센티브 덕분에 GPU 클라우드를 구축하는 비용이 크게 줄어듭니다. OpenAI는 계산 칩 생산을 위해 1조 달러를 모금하고 있습니다. 토큰 인센티브가 없는 상태에서 시장 리더를 이기려면 최소 1조 달러가 필요할 것으로 보입니다.
- 계산 시간
비-Web3 GPU 클라우드는 더 빠를 것입니다. 이미 임대된 GPU 클러스터가 지리적 영역 내에 위치하는 반면, Web3 모델은 더 넓게 분산된 시스템을 가질 수 있으며, 지연은 비효율적인 작업 분할, 부하 균형, 그리고 가장 중요한 대역폭에서 발생할 수 있습니다.
- 계산 비용
토큰 인센티브 덕분에 Web3 계산 비용은 기존 Web2 모델보다 상당히 낮을 것입니다.
계산 비용 비교:
이미지 더 많은 공급이 있고 클러스터가 이러한 GPU를 제공할 때, 이러한 숫자는 변할 수 있습니다. Gensyn은 A100s(및 그 동등물)를 시간당 0.55달러 이하로 제공한다고 주장하며, Exabits는 유사한 비용 절감 구조를 약속합니다.
4. 규정 준수
무허가 시스템에서는 규정 준수가 쉽지 않습니다. 그러나 io.net, Gensyn과 같은 Web3 시스템은 자신을 무허가 시스템으로 포지셔닝하지 않습니다. GPU 온라인, 데이터 로딩, 데이터 공유 및 결과 공유 단계에서 GDPR 및 HIPAA와 같은 규정 준수 문제를 처리했습니다.
생태계
Gensyn, io.net, Exabits, Akash
위험
- 수요 위험
저는 최고 수준의 LLM 플레이어가 GPU를 계속 축적하거나 NVIDIA의 Selene 슈퍼컴퓨터와 같은 GPU 클러스터를 사용할 것이라고 생각합니다. 후자의 피크 성능은 2.8 exaFLOP/s입니다. 그들은 소비자 또는 롱테일 클라우드 제공자가 GPU를 집합하는 데 의존하지 않을 것입니다. 현재 최고 AI 조직은 품질 경쟁이 비용 경쟁보다 더 큽니다.
비중량 ML 모델의 경우, 그들은 더 저렴한 계산 자원을 찾을 것이며, 블록체인 기반의 토큰 인센티브 GPU 클러스터는 기존 GPU를 최적화하면서 서비스를 제공할 수 있습니다(위의 가정: 이러한 조직은 LLM을 사용하는 것보다 자신의 모델을 훈련하는 것을 선호합니다).
- 공급 위험
많은 자본이 ASIC 연구에 투입되고, 텐서 처리 장치(TPU)와 같은 발명이 이루어짐에 따라, 이 GPU 공급 문제는 스스로 해결될 수 있습니다. 이러한 ASIC이 좋은 성능: 비용 균형을 제공할 수 있다면, 대형 AI 조직이 축적한 기존 GPU는 시장에 다시 나올 수 있습니다.
블록체인 기반 GPU 클러스터가 장기적인 문제를 해결했는가? 블록체인은 GPU 외의 모든 칩을 지원할 수 있지만, 수요자의 행동이 이 분야 내 프로젝트의 발전 방향을 완전히 결정할 것입니다.
결론
소형 GPU 클러스터를 가진 분산 네트워크는 문제를 해결하지 않습니다. "롱테일" GPU 클러스터의 위치가 없습니다. GPU 제공자(소매 또는 소규모 클라우드 플레이어)는 더 큰 네트워크를 선호할 것입니다. 왜냐하면 네트워크의 인센티브가 더 좋기 때문입니다. 이는 좋은 토큰 모델의 기능이기도 하며, 공급자가 다양한 계산 유형을 지원할 수 있는 능력이기도 합니다.
GPU 클러스터는 CDN과 유사한 집합 운명을 겪을 수 있습니다. 대형 플레이어가 AWS와 같은 기존 리더와 경쟁하려면, 그들은 네트워크 지연과 노드의 지리적 근접성을 줄이기 위해 자원을 공유하기 시작할 수 있습니다.
수요자가 더 커지면(훈련해야 할 모델이 더 많고, 훈련해야 할 매개변수의 수가 더 많아짐), Web3 플레이어는 공급자 비즈니스 발전에 매우 적극적이어야 합니다. 동일한 고객군에서 너무 많은 클러스터가 경쟁하게 되면, 공급이 분산되어(이로 인해 전체 개념이 무효화됨) 수요(TFLOPs 기준)가 기하급수적으로 증가할 것입니다.
Io.net은 많은 경쟁자들 중에서 두각을 나타내며 집합 모델로 시작했습니다. 그들은 Render Network와 Filecoin 채굴자의 GPU를 집합하여 용량을 제공하고 있으며, 동시에 자신의 플랫폼에서 공급을 유도하고 있습니다. 이는 DePIN GPU 클러스터의 승리 방향이 될 수 있습니다.