Sora가 등장하다, 2024년은 AI+Web3 혁명의 원년이 될까?

YBB 캐피탈
2024-02-23 17:06:53
수집
AI와 Web3 융합의 미래 탐색: 분산형 컴퓨팅 파워, 빅데이터, Dapp 혁신 및 산업 혁신에 대한 심오한 영향.

저자: YBB Capital Zeke

서론

2월 16일, OpenAI는 최신 텍스트 제어 비디오 생성 확산 모델 "Sora"를 발표했습니다. 다양한 시각 데이터 유형을 포괄하는 고품질 생성 비디오를 통해 생성적 AI의 또 다른 이정표를 보여주었습니다. Pika와 같은 AI 비디오 생성 도구가 여러 이미지를 사용하여 몇 초의 비디오를 생성하는 상태에 있는 것과는 달리, Sora는 비디오와 이미지의 압축 잠재 공간에서 훈련하여 이를 시공간 위치 패치로 분해함으로써 확장 가능한 비디오 생성을 실현했습니다. 이 모델은 물리적 세계와 디지털 세계를 시뮬레이션하는 능력도 보여주며, 최종적으로 60초 데모는 "물리적 세계의 범용 시뮬레이터"라고 해도 과언이 아닙니다.

구성 방식에서 Sora는 이전 GPT 모델의 "원 데이터-Transformer-Diffusion-출현" 기술 경로를 이어가고 있으며, 이는 발전과 성숙에 있어 계산력이 엔진으로 필요하다는 것을 의미합니다. 비디오 훈련에 필요한 데이터 양이 텍스트 훈련의 데이터 양보다 훨씬 크기 때문에, 계산력에 대한 수요는 더욱 증가할 것입니다.

우리는 이전 기사 "잠재력 트랙 전망: 탈중앙화 계산력 시장"에서 AI 시대의 계산력 중요성에 대해 논의한 바 있으며, 최근 AI 열기가 계속해서 상승함에 따라 시장에는 많은 계산력 프로젝트가 등장하고 있습니다. 또한, 수동적으로 혜택을 보는 다른 Depin 프로젝트(저장소, 계산력 등)도 폭등을 맞이했습니다. 그렇다면 Depin 외에 Web3와 AI의 융합은 어떤 새로운 가능성을 만들어낼 수 있을까요? 이 트랙에는 어떤 기회가 숨겨져 있을까요? 본 기사의 주요 목적은 이전 기사를 업데이트하고 보완하며, AI 시대의 Web3에서 어떤 가능성이 존재하는지를 탐구하는 것입니다.

AI 발전사의 세 가지 방향

인공지능(Artificial Intelligence)은 인간의 지능을 모방, 확장 및 강화하는 것을 목표로 하는 신흥 과학 기술입니다. 인공지능은 20세기 50~60년대에 탄생한 이후 반세기 이상의 발전을 거쳐 사회 생활과 각 산업의 변혁을 이끄는 중요한 기술이 되었습니다. 이 과정에서 기호주의, 연결주의 및 행동주의 세 가지 연구 방향의 상호 교차 발전이 오늘날 AI의 빠른 발전의 기초가 되었습니다.

기호주의 (Symbolism)

논리주의 또는 규칙주의라고도 하며, 기호를 처리하여 인간의 지능을 모방하는 것이 가능하다고 봅니다. 이 방법은 기호를 사용하여 문제 영역 내의 객체, 개념 및 그 상호 관계를 나타내고 조작하며, 논리적 추론을 통해 문제를 해결합니다. 특히 전문가 시스템 및 지식 표현 분야에서 두드러진 성과를 거두었습니다. 기호주의의 핵심 관점은 지능적 행동이 기호의 조작과 논리적 추론을 통해 실현될 수 있다는 것입니다. 여기서 기호는 현실 세계에 대한 높은 추상을 나타냅니다.

연결주의 (Connectionism)

신경망 방법이라고도 하며, 인간 뇌의 구조와 기능을 모방하여 지능을 실현하는 것을 목표로 합니다. 이 방법은 많은 간단한 처리 단위(신경세포와 유사)로 구성된 네트워크를 구축하고, 이러한 단위 간의 연결 강도를 조정하여 학습을 실현합니다. 연결주의는 데이터에서 학습하고 일반화하는 능력을 특히 강조하며, 패턴 인식, 분류 및 연속 입력 출력 매핑 문제에 특히 적합합니다. 딥러닝은 연결주의의 발전으로, 이미지 인식, 음성 인식 및 자연어 처리 분야에서 돌파구를 마련했습니다.

행동주의 (Behaviorism)

행동주의는 생체 모방 로봇학 및 자율 지능 시스템 연구와 밀접한 관련이 있으며, 지능체가 환경과의 상호작용을 통해 학습할 수 있음을 강조합니다. 앞의 두 가지와는 달리 행동주의는 내부 표현이나 사고 과정을 모방하는 데 집중하지 않고, 감지와 행동의 순환을 통해 적응적 행동을 실현합니다. 행동주의는 지능이 환경과의 동적 상호작용을 통해 나타난다고 보며, 복잡하고 예측할 수 없는 환경에서 행동해야 하는 이동 로봇 및 적응 제어 시스템에 특히 효과적입니다.

이 세 가지 연구 방향은 본질적으로 차이가 있지만, 실제 AI 연구 및 응용에서 서로 상호작용하고 융합하여 AI 분야의 발전을 함께 이끌어갈 수 있습니다.

AIGC 원리 개요

현재 폭발적으로 발전하고 있는 생성적 AI(Artificial Intelligence Generated Content, 약칭 AIGC)는 연결주의의 진화 및 응용으로, AIGC는 인간의 창의성을 모방하여 새로운 콘텐츠를 생성할 수 있습니다. 이러한 모델은 대규모 데이터 세트와 딥러닝 알고리즘을 사용하여 훈련되며, 데이터 내의 기본 구조, 관계 및 패턴을 학습합니다. 사용자 입력 프롬프트에 따라 이미지, 비디오, 코드, 음악, 디자인, 번역, 질문 응답 및 텍스트를 포함한 독창적이고 독특한 출력 결과를 생성합니다. 현재 AIGC는 기본적으로 세 가지 요소로 구성됩니다: 딥러닝(Deep Learning, 약칭 DL), 빅데이터, 대규모 계산력.

딥러닝

딥러닝은 머신러닝(ML)의 하위 분야로, 딥러닝 알고리즘은 인간 뇌의 모델을 모방한 신경망입니다. 예를 들어, 인간 뇌는 수백만 개의 상호 연결된 신경세포로 구성되어 있으며, 이들은 협력하여 정보를 학습하고 처리합니다. 마찬가지로, 딥러닝 신경망(또는 인공 신경망)은 컴퓨터 내부에서 협력하는 여러 층의 인공 신경세포로 구성됩니다. 인공 신경세포는 데이터를 처리하기 위해 수학적 계산을 사용하는 소프트웨어 모듈입니다. 인공 신경망은 이러한 노드를 사용하여 복잡한 문제를 해결하는 딥러닝 알고리즘입니다.

신경망은 입력층, 숨겨진 층, 출력층으로 나눌 수 있으며, 서로 다른 층 간의 연결은 매개변수로 표시됩니다.

  • 입력층 (Input Layer): 입력층은 신경망의 첫 번째 층으로, 외부 입력 데이터를 수신합니다. 입력층의 각 신경세포는 입력 데이터의 하나의 특성에 해당합니다. 예를 들어, 이미지 데이터를 처리할 때 각 신경세포는 이미지의 하나의 픽셀 값에 해당할 수 있습니다.
  • 숨겨진 층 (Hidden Layer): 입력층은 데이터를 처리하고 이를 신경망의 더 먼 층으로 전달합니다. 이러한 숨겨진 층은 서로 다른 수준에서 정보를 처리하며, 새로운 정보를 수신할 때 행동을 조정합니다. 딥러닝 네트워크는 수백 개의 숨겨진 층을 가질 수 있으며, 여러 다른 각도에서 문제를 분석하는 데 사용됩니다. 예를 들어, 분류해야 할 미지의 동물의 이미지가 주어지면, 이를 이미 알고 있는 동물과 비교할 수 있습니다. 귀 모양, 다리 수, 동공 크기를 통해 어떤 동물인지 판단할 수 있습니다. 딥러닝 신경망의 숨겨진 층도 같은 방식으로 작동합니다. 딥러닝 알고리즘이 동물 이미지를 분류하려고 할 경우, 각 숨겨진 층은 동물의 다양한 특성을 처리하고 이를 정확하게 분류하려고 시도합니다.
  • 출력층 (Output Layer): 출력층은 신경망의 마지막 층으로, 네트워크의 출력을 생성합니다. 출력층의 각 신경세포는 가능한 출력 범주 또는 값을 나타냅니다. 예를 들어, 분류 문제에서 각 출력층 신경세포는 하나의 범주에 해당할 수 있으며, 회귀 문제에서는 출력층에 하나의 신경세포만 존재할 수 있으며, 그 값은 예측 결과를 나타냅니다.
  • 매개변수: 신경망에서 서로 다른 층 간의 연결은 가중치(Weights)와 편향(Biases) 매개변수로 표시되며, 이러한 매개변수는 훈련 과정에서 최적화되어 네트워크가 데이터 내의 패턴을 정확하게 인식하고 예측할 수 있도록 합니다. 매개변수가 증가하면 신경망의 모델 용량이 향상되어, 모델이 데이터 내의 복잡한 패턴을 학습하고 표현할 수 있는 능력이 증가합니다. 그러나 매개변수가 증가하면 계산력에 대한 수요도 증가합니다.

빅데이터

효과적으로 훈련하기 위해 신경망은 일반적으로 대량의 다양하고 고품질의 다원적 데이터를 필요로 합니다. 이는 머신러닝 모델 훈련 및 검증의 기초입니다. 빅데이터를 분석함으로써 머신러닝 모델은 데이터 내의 패턴과 관계를 학습하여 예측 또는 분류를 수행할 수 있습니다.

대규모 계산력

신경망의 다층 복잡 구조, 대량의 매개변수, 빅데이터 처리 요구, 반복 훈련 방식(훈련 단계에서 모델은 반복적으로 훈련되며, 훈련 과정에서 각 층의 계산에 대해 순전파 및 역전파를 수행해야 하며, 여기에는 활성화 함수 계산, 손실 함수 계산, 기울기 계산 및 가중치 업데이트가 포함됨), 고정밀 계산 요구, 병렬 계산 능력, 최적화 및 정규화 기술, 모델 평가 및 검증 과정은 모두 높은 계산력에 대한 수요를 초래합니다.

Sora

OpenAI가 최근 발표한 비디오 생성 AI 모델 Sora는 인공지능이 다양한 시각 데이터를 처리하고 이해하는 능력의 큰 진전을 나타냅니다. 비디오 압축 네트워크와 시공간 패치 기술을 채택함으로써 Sora는 전 세계 다양한 장치에서 촬영된 방대한 시각 데이터를 통합된 표현 형태로 변환하여 복잡한 시각 콘텐츠를 효율적으로 처리하고 이해할 수 있게 되었습니다. 텍스트 조건화된 Diffusion 모델에 기반하여 Sora는 텍스트 프롬프트에 따라 높은 일치를 이루는 비디오나 이미지를 생성하여 매우 높은 창의성과 적응성을 보여줍니다.

그러나 Sora가 비디오 생성 및 실제 세계 상호작용 시뮬레이션에서 돌파구를 마련했음에도 불구하고, 물리적 세계 시뮬레이션의 정확성, 긴 비디오 생성의 일관성, 복잡한 텍스트 지시의 이해 및 훈련과 생성 효율성 등 몇 가지 한계에 직면해 있습니다. 또한 Sora는 본질적으로 OpenAI의 독점적인 계산력과 선발 우위를 통해 "빅데이터-Transformer-Diffusion-출현"이라는 오래된 기술 경로를 이어가며 폭력적인 미학을 달성하고 있으며, 다른 AI 회사들은 여전히 기술적 우회로를 통해 추월할 가능성이 존재합니다.

Sora와 블록체인의 관계는 크지 않지만, 개인적으로는 향후 1~2년 동안 Sora의 영향으로 인해 다른 고품질 AI 생성 도구가 등장하고 빠르게 발전할 것이며, 이는 Web3 내의 GameFi, 소셜, 창작 플랫폼, Depin 등 여러 트랙에 영향을 미칠 것이라고 생각합니다. 따라서 Sora에 대한 대략적인 이해는 필요하며, 미래의 AI가 Web3와 어떻게 효과적으로 결합될 수 있을지에 대한 고민이 필요할 것입니다.

AI x Web3의 네 가지 경로

위에서 언급한 바와 같이, 생성적 AI에 필요한 기본 기반은 사실 세 가지입니다: 알고리즘, 데이터, 계산력. 반면, 범용성과 생성 효과 측면에서 AI는 생산 방식을 혁신하는 도구입니다. 블록체인의 가장 큰 역할은 두 가지입니다: 생산 관계 재구성 및 탈중앙화. 따라서 두 가지의 충돌로 인해 발생할 수 있는 경로는 개인적으로 다음과 같은 네 가지가 있다고 생각합니다.

탈중앙화 계산력

과거에 관련된 기사를 작성했기 때문에, 이 단락의 주요 목적은 계산력 트랙의 최근 상황을 업데이트하는 것입니다. AI에 대해 이야기할 때, 계산력은 항상 피할 수 없는 요소입니다. Sora의 출현 이후 AI의 계산력 수요는 상상할 수 없을 정도로 커졌습니다. 최근 스위스 다보스에서 열린 2024 세계 경제 포럼에서 OpenAI CEO 샘 올트먼은 계산력과 에너지가 현재 가장 큰 제약이라고 언급하며, 두 요소의 중요성이 미래에는 화폐와 동등할 것이라고 말했습니다. 이후 2월 10일, 샘 올트먼은 트위터에 7조 달러(중국 23년 전국 GDP의 40%에 해당)를 조달하여 현재의 반도체 산업 구조를 재편하고 칩 제국을 세우겠다는 놀라운 계획을 발표했습니다. 계산력 관련 기사를 작성할 때, 제 상상력은 국가 봉쇄와 대기업 독점에 국한되어 있었지만, 이제 한 회사가 전 세계 반도체 산업을 통제하려고 한다는 것은 정말 미친 짓입니다.

따라서 탈중앙화 계산력의 중요성은 자연스럽게 말할 필요가 없습니다. 블록체인의 특성은 현재 계산력이 극도로 독점된 문제와 전용 GPU 구매 비용이 비싼 문제를 해결할 수 있습니다. AI의 필요성 측면에서 계산력의 사용은 추론과 훈련 두 가지 방향으로 나눌 수 있으며, 훈련을 주로 하는 프로젝트는 현재 매우 드물고, 탈중앙화 네트워크는 신경망 설계와 결합해야 하며, 하드웨어에 대한 초고 요구로 인해 진입 장벽이 매우 높고 실현이 어렵습니다. 반면, 추론은 상대적으로 간단합니다. 한편으로는 탈중앙화 네트워크 설계가 복잡하지 않으며, 다른 한편으로는 하드웨어와 대역폭 요구가 낮아 현재 비교적 주류 방향입니다.

중앙 집중식 계산력 시장의 상상 공간은 거대하며, 종종 "조 단위"라는 키워드와 연결됩니다. 동시에 AI 시대에서 가장 쉽게 자주 논의되는 주제이기도 합니다. 그러나 최근 등장한 많은 프로젝트를 보면, 대부분은 서둘러 출시된 것이며, 열기를 쫓고 있습니다. 항상 탈중앙화의 올바른 깃발을 높이 들지만, 탈중앙화 네트워크의 비효율성 문제에 대해서는 언급하지 않습니다. 또한 설계에서 높은 동질성을 보이며, 많은 프로젝트가 매우 유사합니다(원클릭 L2 추가 채굴 설계) 결국에는 혼란스러운 상황을 초래할 수 있으며, 이러한 상황에서 전통 AI 트랙에서 한 조각을 나누는 것은 정말 어렵습니다.

알고리즘, 모델 협력 시스템

머신러닝 알고리즘은 데이터에서 규칙과 패턴을 학습하고 이를 기반으로 예측이나 결정을 내릴 수 있는 알고리즘을 의미합니다. 알고리즘은 기술 집약적이며, 설계와 최적화에는 깊은 전문 지식과 기술 혁신이 필요합니다. 알고리즘은 AI 모델 훈련의 핵심으로, 데이터가 유용한 통찰력이나 결정으로 변환되는 방식을 정의합니다. 일반적인 생성적 AI 알고리즘으로는 생성적 적대 신경망(GAN), 변분 오토인코더(VAE), 변환기(Transformer) 등이 있으며, 각 알고리즘은 특정 분야(예: 그림, 언어 인식, 번역, 비디오 생성) 또는 목적을 위해 태어났으며, 알고리즘을 통해 전용 AI 모델을 훈련합니다.

그렇다면 이렇게 많은 알고리즘과 모델이 각기 장점을 가지고 있는 만큼, 이를 통합하여 문서와 무기를 모두 갖춘 모델로 만들 수 있을까요? 최근 인기를 끌고 있는 Bittensor는 이 방향의 선두주자로, 채굴 보상을 통해 서로 다른 AI 모델과 알고리즘이 협력하고 학습하여 더 효율적이고 다재다능한 AI 모델을 창출할 수 있도록 합니다. 이와 같은 방향으로는 Commune AI(코드 협력) 등이 있지만, 알고리즘과 모델은 현재 AI 회사들에게 자사의 보물과 같아 쉽게 외부에 빌려주지 않습니다.

따라서 AI 협력 생태계라는 서사는 매우 신선하고 흥미롭습니다. 협력 생태계 시스템은 블록체인의 장점을 활용하여 AI 알고리즘의 섬을 통합하는 단점을 극복하려고 하지만, 과연 이에 상응하는 가치를 창출할 수 있을지는 현재로서는 미지수입니다. 결국, 주요 AI 회사의 폐쇄형 알고리즘과 모델은 업데이트 및 통합 능력이 매우 강력합니다. 예를 들어 OpenAI는 2년이 채 되지 않아 초기 텍스트 생성 모델에서 다영역 생성 모델로 발전했습니다. Bittensor와 같은 프로젝트는 모델과 알고리즘이 목표로 하는 분야에서 새로운 길을 찾아야 할 것입니다.

탈중앙화 빅데이터

간단한 관점에서 볼 때, 개인 데이터를 AI에 제공하고 데이터를 태깅하는 것은 블록체인과 매우 잘 맞는 방향입니다. 단지 쓰레기 데이터와 악의적인 행위를 방지하는 방법에 주의해야 하며, 데이터 저장 측면에서도 FIL, AR 등의 Depin 프로젝트가 혜택을 받을 수 있습니다. 복잡한 관점에서 보면, 블록체인 데이터를 머신러닝(ML)에 활용하여 블록체인 데이터의 접근성을 해결하는 것도 흥미로운 방향입니다(Giza의 탐색 방향 중 하나).

이론적으로 블록체인 데이터는 언제든지 접근할 수 있으며, 전체 블록체인의 상태를 반영합니다. 그러나 블록체인 생태계 외부의 사람들에게는 이러한 방대한 데이터 양을 얻는 것이 쉽지 않습니다. 블록체인을 완전히 저장하려면 풍부한 전문 지식과 많은 전용 하드웨어 자원이 필요합니다. 블록체인 데이터 접근 문제를 극복하기 위해 업계에서는 몇 가지 해결책이 등장했습니다. 예를 들어, RPC 제공자는 API를 통해 노드에 접근하고, 인덱스 서비스는 SQL 및 GraphQL을 통해 데이터 추출을 가능하게 하여 이 두 가지 방법이 문제 해결에 중요한 역할을 하고 있습니다. 그러나 이러한 방법에는 한계가 있습니다. RPC 서비스는 대량의 데이터 쿼리가 필요한 고밀도 사용 시나리오에 적합하지 않으며, 종종 요구를 충족하지 못합니다. 동시에 인덱스 서비스는 더 구조화된 데이터 검색 방식을 제공하지만, Web3 프로토콜의 복잡성으로 인해 효율적인 쿼리 구축이 극히 어려워지며, 때로는 수백 또는 수천 줄의 복잡한 코드를 작성해야 할 수도 있습니다. 이러한 복잡성은 일반 데이터 종사자와 Web3 세부 사항에 대한 이해가 부족한 사람들에게는 큰 장애물이 됩니다. 이러한 제한의 누적 효과는 블록체인 데이터에 대한 접근 및 활용을 더 쉽게 할 수 있는 방법이 필요하다는 것을 강조하며, 이는 이 분야의 더 넓은 응용 및 혁신을 촉진할 수 있습니다.

따라서 ZKML(제로 지식 증명 머신러닝, 머신러닝의 체인 부담을 줄이는 것)과 고품질 블록체인 데이터를 결합하면 블록체인 접근성을 해결할 수 있는 데이터 세트를 생성할 수 있으며, AI는 블록체인 데이터 접근성의 장벽을 크게 낮출 수 있습니다. 시간이 지남에 따라 개발자, 연구자 및 ML 분야의 애호가들은 더 많은 고품질의 관련 데이터 세트에 접근할 수 있게 되어 효과적이고 혁신적인 솔루션을 구축할 수 있을 것입니다.

AI로 강화된 Dapp

2023년 ChatGPT3가 폭발적으로 인기를 끌면서 AI로 강화된 Dapp은 매우 일반적인 방향이 되었습니다. 범용성이 매우 높은 생성적 AI는 API를 통해 접속할 수 있어 데이터 플랫폼, 거래 로봇, 블록체인 백과사전 등의 응용을 간소화하고 지능화할 수 있습니다. 한편으로는 챗봇(예: Myshell)이나 AI 동반자(Sleepless AI) 역할을 하거나, 생성적 AI를 통해 체인 게임의 NPC를 생성할 수도 있습니다. 그러나 기술 장벽이 낮기 때문에 대부분은 API를 접속한 후 미세 조정하는 방식으로, 프로젝트 자체와의 결합이 충분히 완벽하지 않아 거의 언급되지 않습니다.

하지만 Sora의 출현 이후, 개인적으로는 AI가 GameFi(메타버스 포함) 및 창작 플랫폼에 강화되는 방향이 앞으로 주목해야 할 핵심이 될 것이라고 생각합니다. Web3 분야의 하향식 특성으로 인해 전통 게임이나 창의적인 회사와 경쟁할 수 있는 제품이 탄생하기는 매우 어려울 것이며, Sora의 출현은 이러한 곤경을 타개할 가능성이 높습니다(아마도 2~3년 내에). Sora의 데모를 보면, 이미 미니 드라마 회사와 경쟁할 수 있는 잠재력을 갖추고 있으며, Web3의 활발한 커뮤니티 문화는 많은 흥미로운 아이디어를 낳을 수 있습니다. 상한선이 오직 상상력뿐이라면, 하향식 산업과 상향식 전통 산업 간의 장벽은 허물어질 것입니다.

결론

생성적 AI 도구의 지속적인 발전과 함께, 우리는 앞으로 더 많은 획기적인 "아이폰 순간"을 경험하게 될 것입니다. 많은 사람들이 AI와 Web3의 결합을 비웃지만, 실제로는 현재의 방향이 대부분 문제가 없으며, 해결해야 할 고통점은 사실 세 가지입니다: 필요성, 효율성, 적합성. 두 가지의 융합은 탐색 단계에 있지만, 이 트랙이 다음 황소 시장의 주류가 되는 것을 방해하지는 않을 것입니다.

새로운事物에 대해 항상 충분한 호기심과 수용성을 유지하는 것이 우리가 갖추어야 할 마음가짐입니다. 역사적으로 자동차가 마차를 대체하는 변화는 순식간에 이루어졌으며, 과거의 NFT와 같은 비문처럼, 너무 많은 편견을 가지면 기회를 놓치게 될 것입니다.

관련 태그
체인캐처(ChainCatcher)는 독자들에게 블록체인을 이성적으로 바라보고, 리스크 인식을 실제로 향상시키며, 다양한 가상 토큰 발행 및 조작에 경계해야 함을 상기시킵니다. 사이트 내 모든 콘텐츠는 시장 정보나 관련 당사자의 의견일 뿐이며 어떠한 형태의 투자 조언도 제공하지 않습니다. 만약 사이트 내에서 민감한 정보를 발견하면 “신고하기”를 클릭하여 신속하게 처리할 것입니다.
banner
체인캐처 혁신가들과 함께하는 Web3 세상 구축