DeepSeek를 파헤치다, 왜 DeepSeek는 경력이 없는 젊은이를 선호하는가?
0. 서론
최근 DeepSeek V3와 R1의 연속 출현으로 미국의 AI 연구자, 창업자 및 투자자들이 Fomo를 경험하고 있습니다. 이 축제는 2022년 말 ChatGPT가 등장했을 때와 같은 놀라움을 안겨주고 있습니다.
DeepSeek R1의 완전한 오픈소스(HuggingFace에서 모델을 무료로 다운로드하여 로컬 추론 가능)와 극히 낮은 가격(OpenAI o1의 1/100 가격) 덕분에 DeepSeek는 단 5일 만에 미국 Apple AppStore에서 1위를 차지했습니다.
그렇다면, 이 신비로운 중국의 양적 회사에서 탄생한 AI 신세력은 도대체 어디에서 왔을까요?
1. DeepSeek의 유래
제가 처음 DeepSeek에 대해 들은 것은 2021년이었습니다. 그 당시, 다모 연구소에서 일할 때, 옆 팀의 천재 소녀인 북대학 석사 로푸리(로푸리)는 1년 동안 8편의 ACL(자연어 처리 최고 회의) 논문을 발표한 후, 환상적인 양적 회사인 환상량화(High-Flyer Quant)에 합류했습니다. 당시 모두가 매우 궁금해했습니다. 매우 수익성이 좋은 양적 회사가 왜 AI 분야의 인재를 모집하는 걸까요? 환상량화도 논문을 발표해야 할까요?
당시 제가 아는 바로는, 환상량화에서 모집한 AI 연구원들은 대부분 각자 독립적으로 최전선의 방향을 탐색하고 있었으며, 그 중 가장 핵심적인 방향은 대형 모델(LLM)과 문생도 모델(당시 OpenAI Dall-e) 관련이었습니다.
시간이 흘러 2022년 말, 환상량화는 점차 더 많은 최고의 AI 인재(대부분 청화대와 북대학 재학생)를 흡수하기 시작했습니다. ChatGPT의 자극으로, AI 분야에서 다년간 경험을 쌓아온 환상량화 CEO 양문봉은 일반 인공지능 분야에 진출하기로 결심했습니다: ++"우리는 언어 대형 모델부터 시작하여 새로운 회사를 설립했습니다. 이후에는 시각 등도 포함될 것입니다."++
맞습니다. 이 회사가 바로 DeepSeek입니다. 2023년 초, 지표, 월의 어두운 면, 백천 지능 등으로 대표되는 여섯 개의 작은 용들이 점차 무대 중앙으로 나아가고, 번화한 중관춘과 오도구 사이에서 DeepSeek의 존재감은 상당 부분 이러한 핫머니에 의해 "주의력"(Attention)을 빼앗겼습니다.
따라서 2023년, 스타 창립자가 없는 순수 연구 기관인 DeepSeek(예: 리카이푸의 영일만물, 양지린의 월의 어두운 면, 왕샤오촨의 백천 지능 등)는 시장에서 독립적으로 자금을 조달하기가 매우 어려웠습니다. 그래서 환상량화는 DeepSeek를 분리하고 DeepSeek의 개발을 전액 지원하기로 결정했습니다. 2023년 이 뜨거운 시대에, 어떤 벤처 캐피탈 회사도 DeepSeek에 자금을 제공할 의향이 없었습니다. 첫째, DeepSeek에는 대부분 갓 졸업한 박사들이 있으며, 매우 유명한 최고 연구원이 자리를 지키고 있지 않았고, 둘째, 자본 회수가 멀기 때문입니다.
소음과 불안정한 환경 속에서, DeepSeek는 AI 탐색에서 하나하나의 이야기를 써내려가기 시작했습니다:
2023년 11월, DeepSeek는 670억 개의 매개변수를 가진 DeepSeek LLM을 출시하였으며, 성능은 GPT-4에 근접합니다.
2024년 5월, DeepSeek-V2가 공식 출시되었습니다.
2024년 12월, DeepSeek-V3가 발표되었으며, 기준 테스트 결과는 Llama 3.1 및 Qwen 2.5보다 우수한 성능을 보였고, GPT-4o 및 Claude 3.5 Sonnet과 동등한 수준으로 업계의 주목을 받았습니다.
2025년 1월, 첫 번째 추론 능력을 가진 대형 모델 DeepSeek-R1이 발표되었습니다. OpenAI o1의 1/100도 안 되는 가격과 뛰어난 성능으로 전 세계 기술계를 놀라게 했습니다: 세계는 진정으로 중국의 힘이 왔음을 깨달았습니다… 오픈소스는 항상 승리합니다!
2. 인재 전략
저는 초기부터 DeepSeek의 연구원 몇 명을 알게 되었으며, 주로 AIGC 방향을 연구하는 사람들입니다. 예를 들어 2024년 11월에 발표된 Janus의 저자와 DreamCraft3D의 저자 중 한 명이 저의 최신 논문을 최적화하는 데 도움을 주었습니다 @xingchaoliu.
제 발견에 따르면, 제가 아는 연구원들은 대부분 매우 젊으며, 기본적으로 박사 과정 중이거나 졸업한 지 3년 이내입니다.
이들 중 대부분은 베이징 지역에서 대학원이나 박사 과정을 밟고 있으며, 학문적으로 매우 뛰어난 성과를 내고 있습니다: 대개 3-5편의 최고 회의 논문을 발표한 연구원들입니다.
저는 DeepSeek의 친구에게 왜 양문봉이 젊은 인재만을 모집하는지 물어보았습니다.
그들은 저에게 환상량화 CEO 양문봉의 말을 전해주었으며, 그의 원문은 다음과 같습니다:
DeepSeek 팀의 신비로운 베일은 사람들의 호기심을 자아냅니다: 그들의 비밀 무기는 무엇인가요? 외신에 따르면, 이 비밀 무기는 "젊은 천재들"이며, 그들은 자금력이 강한 미국의 거대 기업과 경쟁할 수 있습니다.
AI 산업에서는 경험이 풍부한 베테랑을 고용하는 것이 일반적이며, 많은 중국의 AI 스타트업은 경력이 있는 연구원이나 해외 박사 학위를 가진 인재를 선호합니다. 그러나 DeepSeek는 그와 반대로, 경력이 없는 젊은 인재를 선호합니다.
DeepSeek와 협력한 한 헤드헌터는 DeepSeek가 경력 있는 기술자를 채용하지 않는다고 밝혔습니다. "경력이 3-5년인 것이 최대이며, 8년 이상 경력자는 기본적으로 패스입니다." 양문봉은 2023년 5월 36氪 인터뷰에서 DeepSeek의 대부분 개발자가 신입 졸업생이거나 인공지능 직업을 막 시작한 사람이라고 밝혔습니다. 그는 강조했습니다: "우리의 핵심 기술 직무는 대부분 신입 졸업생이나 1-2년 경력을 가진 사람들이 맡고 있습니다."
경력이 없는 DeepSeek는 어떻게 인재를 선발할까요? 답은, 잠재력을 보는 것입니다.
양문봉은 한 번 말했습니다, "장기적인 일을 할 때, 경험은 그렇게 중요하지 않으며, 그에 비해 기본 능력, 창의성 및 열정 등이 더 중요합니다." 그는 아마도 현재 세계에서 상위 50위 안에 드는 최고의 AI 인재는 중국에 없다고 생각합니다, "하지만 우리는 그런 인재를 스스로 키울 수 있습니다."
이 전략은 OpenAI의 초기 전략을 떠올리게 합니다. OpenAI는 2015년 말 설립될 때, Sam Altman의 핵심 생각은 젊고 야망 있는 연구원을 찾는 것이었습니다. 따라서 총재 Greg Brockman과 수석 과학자 Ilya Sutskever를 제외한 나머지 네 명의 핵심 창립 기술 팀원(Andrew Karpathy, Durk Kingma, John Schulman, Wojciech Zaremba)은 모두 신입 박사 졸업생으로, 각각 스탠포드 대학교, 네덜란드 암스테르담 대학교, 캘리포니아 버클리 대학교 및 뉴욕 대학교를 졸업했습니다.
왼쪽에서 오른쪽으로: Ilya Sutskever(전 수석 과학자), Greg Brockman(전 총재), Andrej Karpathy(전 기술 책임자), Durk Kingma(전 연구원), John Schulman(전 강화 학습 팀 책임자) 및 Wojciech Zaremba(현 기술 책임자)
이런 "어린 늑대 전략"은 OpenAI에게 달콤한 열매를 안겨주었고, GPT의 아버지 Alec Radford(민간 3등급 졸업), 문생도 모델 DALL-E의 아버지 Aditya Ramesh(NYU 학부 졸업생), 그리고 GPT-4o의 다중 모달 책임자인 세 차례 올림픽 금메달 수상자 Prafulla Dhariwal 등을 배출했습니다. 설립 초기, 세계를 구하는 계획이 명확하지 않았던 OpenAI는 젊은이들의 돌진 속에서 생존의 길을 열어, OpenAI를 DeepMind 옆의 무명에서 거대 기업으로 성장시켰습니다.
양문봉은 Sam Altman의 성공적인 전략을 보고 이 길을 확고히 선택했으며, 다만 OpenAI가 ChatGPT를 만나기까지 7년을 기다린 것과는 달리, 양문봉의 투자는 2년 만에 성과를 보였습니다. 이는 중국의 속도를 보여줍니다.
3. DeepSeek을 위한 목소리
DeepSeek R1의 글에서는 각종 지표가 놀라울 정도로 우수합니다. 그러나 두 가지 의문이 제기되었습니다:
① 그들이 사용하는 전문가 혼합(MoE) 기술은 훈련 요구 사항이 높고 데이터 요구 사항이 높습니다. 이는 DeepSeek가 OpenAI 데이터를 훈련에 사용했다는 의혹이 타당하다는 것을 나타냅니다.
② DeepSeek는 강화 학습(RL) 기술을 사용하며, 하드웨어 요구 사항이 매우 높습니다. 그러나 메타, OpenAI의 만카 클러스터와 비교할 때, DeepSeek의 훈련은 단 2048장의 H800만 사용했습니다.
계산 능력의 제한과 MoE의 복잡성으로 인해, 단 500만 달러로 한 번에 성공한 DeepSeek R1은 다소 의심스럽게 보입니다. 그러나 R1에 대한 당신의 태도가 "저비용의 기적"을 경외하든, "화려하지만 실속 없는" 것에 의문을 제기하든, 그 기능적 혁신의 눈부심을 무시할 수는 없습니다.
BitMEX 공동 창립자 Arthur Hayes는 글을 통해 DeepSeek의 부상이 세계 투자자들이 미국의 우월성을 의심하게 만들 것인가? 미국의 자산 가치는 심각하게 과대 평가된 것인가?라고 언급했습니다.
스탠포드 대학교 교수 우언다(Wu Enda)는 올해 다보스 포럼에서 공개적으로 "저는 DeepSeek의 발전에 깊은 인상을 받았습니다. 그들이 매우 경제적인 방법으로 모델을 훈련할 수 있다고 생각합니다. 그들이 최근 발표한 추론 모델은 매우 뛰어납니다… '힘내세요'!"라고 말했습니다.
A16z의 창립자 Marc Andreessen는 "Deepseek R1은 제가 본 것 중 가장 놀랍고 인상 깊은 돌파구 중 하나입니다. 그리고 오픈소스로서, 이는 세계에 대한 깊은 선물입니다."라고 밝혔습니다.
2023년 무대 구석에 서 있던 DeepSeek는 마침내 2025년, 음력 설 전에 세계 AI의 정점에 서게 되었습니다.
4. Argo와 DeepSeek
Argo의 기술 개발자이자 AIGC 연구자로서, 저는 Argo의 중요한 기능을 DeepSeek화했습니다: 작업 흐름(workflow) 시스템으로서, 거친 원시 작업 흐름 생성 작업은 DeepSeek R1로 수행되었습니다. 또한, Argo는 LLM을 표준 DeepSeek R1으로 내장하고, 폐쇄형 비싼 OpenAI 모델을 버리기로 선택했습니다. 그 이유는 Workflow 시스템이 일반적으로 많은 토큰 소비와 맥락 정보를 포함하기 때문입니다(평균 >=10k token). 이는 고가의 OpenAI 또는 Claude 3.5를 사용할 경우 Workflow의 실행 비용이 매우 비쌀 수 있으며, web3 사용자가 진정한 가치 포착을 얻기 전에 이러한 선지출 비용은 제품에 대한 손해가 됩니다.
DeepSeek가 점점 더 발전함에 따라, Argo는 DeepSeek를 대표하는 중국의 힘과 더 긴밀한 협력을 할 것입니다: Text2Image/Video 인터페이스의 중국화, LLM의 중국화 등을 포함합니다.
협력 측면에서, Argo는 앞으로 DeepSeek의 연구원들을 초대하여 기술 성과를 공유하고, 최고의 AI 연구원들에게 보조금을 제공하여 web3 투자자와 사용자가 AI 발전을 이해하는 데 도움을 줄 것입니다.