머스크는 AI 훈련 데이터가 고갈되었다는 견해에 동의하며 합성 데이터가 미래의 방향이 될 것이라고 말했다
ChainCatcher 메시지에 따르면, TechCrunch의 보도에 의하면, 엘론 머스크는 Stagwell 의장 마크 펜과의 라이브 대화에서 현재 AI 모델의 훈련이 실제 세계의 데이터를 거의 소진했다고 밝혔습니다. "우리는 인류 지식의 누적 총합을 다 써버렸습니다. 이는 작년에 발생했습니다." 머스크는 전 Open AI 수석 과학자 일리야 수츠케버와 같은 의견을 공유하며, 그는 NeurIPS 머신러닝 컨퍼런스에서 AI 산업이 "데이터 정점"에 도달했으며, 앞으로 모델 개발 방식을 변경해야 할 수도 있다고 언급했습니다.
머스크는 합성 데이터가 실제 데이터를 보완하는 방법이 될 것이라고 생각하며, AI는 생성 및 자기 평가 데이터를 통해 자기 학습을 실현할 것이라고 말했습니다. 이 추세는 마이크로소프트, 메타, Open AI 및 Anthropic과 같은 기술 대기업들이 채택하고 있으며, 마이크로소프트의 Phi-4 모델과 구글의 Gemma 모델은 실제 데이터와 합성 데이터를 결합하여 훈련되고 있습니다. 가트너는 2024년 AI 및 분석 프로젝트에서 약 60%의 데이터가 합성 생성될 것이라고 예측했습니다.
합성 데이터의 장점에는 비용 절감이 포함됩니다. 예를 들어, AI 스타트업 Writer는 거의 완전히 합성 데이터 기반인 Palmyra X 004 모델을 개발하는 데 약 70만 달러를 지출했으며, 비슷한 규모의 Open AI 모델 개발 비용은 약 460만 달러입니다. 그러나 합성 데이터에는 모델의 창의성 저하, 출력 편향 심화, 그리고 잠재적인 모델 붕괴와 같은 위험도 존재합니다. 특히 훈련 데이터 자체에 편향이 있을 경우 생성 결과도 영향을 받을 수 있습니다.