칩에서 데이터까지: AI의 다음 전투

추천 읽기
2025-01-23 12:27:50
수집
본 문서는 데이터 풀의 축소와 탈중앙화 AI(DeAI)가 이 문제를 해결하는 데 어떻게 중요한 역할을 하는지에 대해 논의할 것입니다.

저자: OORT 창립자, 콜롬비아 대학교 교수 리충 박사 (Max Li)

전 세계가 AI 칩 전쟁에 집중하고 있는 가운데------관세, 지식 재산권 제한, 공급망 제재 및 지정학적 분쟁 등, AI의 미래 발전을 직접 좌우하는 데이터 부족 문제는 명백히 간과되고 있다.

올해 초, 일론 머스크는 AI 회사들이 모델 훈련에 필요한 데이터를 고갈시켰으며, 심지어 "인간 지식의 총합"을 "소진"했다고 날카롭게 지적했다.

본 문서는 데이터 풀의 축소와 탈중앙화 AI(DeAI)가 이 도전을 해결하는 데 어떻게 중요한 역할을 하는지 탐구할 것이다.

데이터 전쟁의 도래

먼저 분명히 해야 할 점은: 데이터는 무한하지 않다는 것이다.

데이터 전쟁의 조짐은 이미 있었다: 2023년, 한 무리의 시각 예술가들이 Stability AI, MidJourney 및 DeviantArt를 상대로 이정표가 되는 소송을 제기하며, 이들 회사가 그들의 작품을 허가 없이 생성형 AI 모델(예: Stable Diffusion) 훈련에 사용했다고 주장했다. 동시에, 머스크는 OpenAI와 같은 회사들이 허가 없이 트위터(현재 X 플랫폼)의 데이터를 "크롤링"했다고 비난하며, X 플랫폼이 API 가격 및 접근 제한을 강화하도록 촉구했다.

우연히도, Reddit은 API 가격을 대폭 인상하여 Reddit 사용자 생성 콘텐츠에 의존하여 AI 모델을 훈련하는 OpenAI 및 Anthropic과 같은 회사에 혼란을 초래했다. Reddit은 이 결정을 데이터 수익화의 방법으로 간주했지만, 사용자 데이터 플랫폼과 이러한 데이터를 사용하려는 AI 회사 간의 긴장 관계에 대한 논란을 불러일으켰다.

이러한 사건들은 점점 더 명백해지는 현실을 부각시킨다: 우리는 합법적이고 윤리적으로 사용할 수 있는 데이터를 소진하고 있다.

데이터의 여러 전선

칩 전쟁은 가장 강력한 하드웨어 생산에 집중하는 반면, 데이터 전쟁은 AI 훈련을 위한 적절한 데이터 세트를 확보하는 데 있다. 윤리적이고 고품질 데이터의 점점 더 희귀해짐은 많은 기업의 AI 발전에 있어 병목 현상이 되고 있다.

대기업에게 가장 실행 가능한 방법은 중앙 집중화된 거대 기업으로부터 데이터를 확보하는 것이지만, 이는 비용이 많이 든다. 그러나 소규모 기업은 제한적이고 종종 감당할 수 없는 선택에 직면해 있다. 적절한 데이터 수집 방법이나 경로가 없다면, 이러한 회사들은 미래 AI 발전 및 혁신 경쟁에서 크게 뒤처질 것이다.

그렇다면 우리는 AI 개발에 필요한 데이터를 윤리적이고 효과적인 방법으로 어떻게 수집할 수 있을까?

데이터 전쟁은 여러 전선에서 전개될 것이며, 각 측면은 독특한 도전과 기회를 가져온다.

데이터 수집

누가 데이터 수집의 경로를 통제하는가? 어떻게 윤리적이고 합법적으로 할 수 있는가?

기술 대기업을 상대로 한 소송이 불법 크롤링이나 데이터 사용으로 인해 쌓여가면서, 새로운 조치들이 나타나기 시작했다. 예를 들어, 하버드 대학교는 사용자 동의를 얻은 데이터 기여를 촉진하여 대중에게 개방된 데이터 세트를 제공하고 있다. 이러한 프로젝트는 그 가치는 있지만, 상업적 AI 응용 프로그램의 요구를 충족하기에는 턱없이 부족하다.

합성 데이터도 점차 잠재적인 해결책으로 떠오르고 있다. Meta와 Microsoft와 같은 회사들은 AI를 활용하여 Llama 및 Phi-4와 같은 모델을 미세 조정하기 위해 데이터를 생성하기 시작했다. Google과 OpenAI도 작업에서 합성 데이터를 사용하고 있다. 그러나 합성 데이터는 모델의 "환각" 문제와 같은 자체적인 도전에 직면해 있으며, 이는 정확성과 신뢰성에 영향을 미칠 수 있다.

탈중앙화된 데이터 수집은 또 다른 유망한 선택지를 제공한다. 블록체인 기술을 활용하고 암호화폐를 사용하여 개인이 안전하게 데이터를 공유하도록 유도함으로써, 탈중앙화 모델은 개인 정보 보호, 소유권 및 품질 문제를 해결할 수 있다. 이러한 솔루션은 데이터 접근을 민주화하여 소규모 기업이 AI 생태계에서 경쟁할 수 있도록 한다.

데이터 품질

저품질 데이터는 모델 편향, 부정확한 예측을 초래하고 궁극적으로 AI 시스템에 대한 불신을 야기할 수 있다. 우리는 AI 훈련에 사용되는 데이터가 정확하고 대표성이 있도록 어떻게 보장할 수 있을까?

업계의 일반적인 관행은 다음과 같다:

  • 엄격한 데이터 검증: 회사는 고급 검증 기술을 사용하여 데이터 세트의 오류, 불일치 및 잡음을 필터링한다. 이는 일반적으로 데이터의 완전성을 검증하기 위해 인적 감독, 자동화된 프로세스 또는 두 가지의 조합을 포함한다.
  • 편향 완화 전략: 데이터가 대표성을 갖도록 하기 위해 기업은 편향 감지 도구와 다양한 샘플링 기술을 구현한다. 예를 들어, 의료 분야에서는 데이터 세트가 다양한 인구 집단을 포함해야 하며, 이는 진단 모델에 영향을 미칠 수 있는 편향을 피하기 위함이다.
  • 표준 준수: ISO/IEC 27001과 같은 데이터 보안 산업 프레임워크 및 기타 신흥 윤리 AI 가이드라인은 데이터 품질과 글로벌 표준 준수를 보장하는 데 필수적인 조건이 되고 있다.
  • 크라우드소싱 품질 검사: 아마존 메커니컬 터크(Amazon Mechanical Turk)와 같은 플랫폼은 데이터 태깅 및 검증 작업에 사용된다. 비용이 저렴하지만, 이러한 방법은 일관성과 정확성을 보장하기 위해 감독이 필요하다.
  • 탈중앙화 검증: 블록체인 및 탈중앙화 시스템은 인증된 데이터 출처를 확보하고 데이터의 진위 및 변조 방지를 보장하는 도구로 점차 자리 잡고 있다.

또한, 각국의 규제 기관은 개인 권리와 기술 혁신 간의 균형을 맞추면서, 민감한 데이터를 사이버 위협, 외국의 이용 및 적대적 실체의 남용으로부터 보호하는 등의 주요 국가 안보 문제에 대응해야 하는 포괄적인 데이터 개인 정보 보호 및 보안 규칙을 수립하는 긴급한 도전에 직면해 있다.

앞길은 험난하다

데이터 전쟁의 영향은 심각하다. 예를 들어, 의료 산업에서 고품질 환자 데이터의 확보는 진단 및 치료 계획을 완전히 변화시킬 수 있지만, 엄격한 개인 정보 보호 규정이 장애물로 작용한다. 마찬가지로, 윤리적 데이터 세트를 사용하여 훈련된 AI 모델은 작곡에서 저작권 집행에 이르기까지 모든 것을 변화시킬 수 있지만, 이는 지식 재산권을 존중해야 한다.

이러한 도전은 데이터 투명성, 품질 및 접근성을 우선시하는 탈중앙화 솔루션의 중요성을 강조한다. 탈중앙화 시스템을 활용함으로써, 우리는 개인이 자신의 데이터에 대한 통제권을 유지하고 기업이 윤리적이고 고품질의 데이터 세트에 접근할 수 있으며, 개인 정보나 보안을 해치지 않고 혁신을 촉진할 수 있는 보다 공정한 데이터 생태계를 창출할 수 있다.

칩 전쟁에서 데이터 전쟁으로의 전환은 AI 생태계와 그 진화 과정을 재편성하고, 탈중앙화 데이터 솔루션에 대한 선도적인 기회를 제공할 것이다. 윤리적 데이터 수집과 접근성을 우선시함으로써, 탈중앙화 AI는 격차를 해소하고 보다 공정하고 혁신적인 AI 미래를 이끌 잠재력을 가지고 있다.

최고의 데이터를 차지하기 위한 전투가 시작되었다. 우리는 이에 대응할 준비가 되었는가?

관련 태그
체인캐처(ChainCatcher)는 독자들에게 블록체인을 이성적으로 바라보고, 리스크 인식을 실제로 향상시키며, 다양한 가상 토큰 발행 및 조작에 경계해야 함을 상기시킵니다. 사이트 내 모든 콘텐츠는 시장 정보나 관련 당사자의 의견일 뿐이며 어떠한 형태의 투자 조언도 제공하지 않습니다. 만약 사이트 내에서 민감한 정보를 발견하면 “신고하기”를 클릭하여 신속하게 처리할 것입니다.
banner
체인캐처 혁신가들과 함께하는 Web3 세상 구축