DeepSeekの実態を探る、なぜDeepSeekは職歴のない若者を好むのか?
0. はじめに
最近、DeepSeek V3やR1の登場により、アメリカのAI研究者、起業家、投資家たちがFomoを感じ始めています。この盛り上がりは、2022年末にChatGPTが登場した時と同じくらい驚くべきものです。
DeepSeek R1の完全なオープンソース化(HuggingFaceからモデルを無料でダウンロードしてローカル推論が可能)と非常に低価格(OpenAI o1の1/100の価格)により、DeepSeekはわずか5日間でアメリカのApple AppStoreのチャンピオンに輝きました。
では、この神秘的な中国の量子会社から生まれたAI新勢力は、一体どこから来たのでしょうか?
1. DeepSeekの由来
私が初めてDeepSeekを聞いたのは2021年のことです。当時、ダモ院で働いていた時、隣のグループの天才少女、北京大学の修士生でACL(自然言語処理のトップ会議)に8本の論文を発表した羅福莉が、幻方量化(High-Flyer Quant)に転職しました。当時、皆は非常に好奇心を持っていました。非常に儲かっている量子会社が、なぜAI分野の人材を募集するのか:幻方も論文を発表する必要があるのでしょうか?
当時、私の知る限り、幻方が募集していたAI研究者の多くはそれぞれ独自に戦い、いくつかの最前線の方向性を探索していました。その中でも最も重要な方向性は大規模モデル(LLM)や文生図モデル(当時のOpenAI Dall-e)に関連していました。
時は2022年末に移り、幻方は徐々にますます多くのトップAI人材(大部分は清華大学や北京大学の在校生)を吸収し始めました。ChatGPTの刺激を受けて、AI分野で多くの経験を積んできた幻方のCEO、梁文鋒は、一般的な人工知能分野に進出する決意を固めました:++「私たちは新しい会社を設立し、言語大モデルから始め、後には視覚なども進めていく。」++
そうです、この会社がDeepSeekであり、2023年初頭には智谱、月の暗面、百川智能などを代表とする六小龍会社が徐々に舞台中央に進出し、賑やかな中関村と五道口の間で、DeepSeekの存在感はこれらの熱い資金に打ち勝つ形で「注意力」(Attention)を奪われました。
そのため、2023年、純粋な研究機関として、スター創業者のいないDeepSeek(李開復の零一万物、楊植麟の月の暗面、王小川の百川智能など)は、市場から独立して資金調達を行うのが非常に難しかったのです。したがって、幻方はDeepSeekを分離し、DeepSeekの開発を全額支援することを決定しました。2023年という熾烈な時代において、リスク投資会社はDeepSeekに資金を提供することを望まず、理由は二つあります。一つは、DeepSeekの中にはほとんどが新卒のPhDたちで、非常に有名なトップ研究者がいないこと、二つは資本の退出が遥かに遠いからです。
騒音と浮ついた環境の中で、DeepSeekはAI探索における一つ一つの物語を書き始めました:
2023年11月、DeepSeekは670億のパラメータを持つDeepSeek LLMを発表し、その性能はGPT-4に近いです。
2024年5月、DeepSeek-V2が正式にオンラインになりました。
2024年12月、DeepSeek-V3が発表され、ベンチマークテストではLlama 3.1やQwen 2.5を上回り、GPT-4oやClaude 3.5 Sonnetと同等の性能を示し、業界の注目を集めました。
2025年1月、推論能力を持つ初代大規模モデルDeepSeek-R1が発表され、OpenAI o1の1/100未満の価格と卓越した性能で、世界のテクノロジー界を震撼させました:世界は本当に中国の力が来たことを認識しました… オープンソースは常に勝つのです!
2. 人材戦略
私は初期の頃からDeepSeekの研究者たちを知っており、主にAIGC方向の研究を行っている人たちです。2024年11月に発表されたJanusの著者やDreamCraft3Dの著者の中には、私の最新の論文を最適化してくれた@xingchaoliuもいます。
私の発見によると、私が知っている研究者たちはほとんど非常に若く、基本的に在学中の博士課程の学生か、卒業して3年以内の人たちです。
これらの人々はほとんどが北京地域で大学院生や博士課程の学生で、学術的な面で非常に高い造詣を持っています:多くは3-5本のトップ会議論文を発表した研究者です。
私はDeepSeekの友人に、なぜ梁文鋒が若い人材しか採用しないのか尋ねました。
彼らは私に幻方のCEO、梁文鋒の言葉を伝えてくれました。その原文は以下の通りです:
DeepSeekチームの神秘的なベールは人々の好奇心を引き起こします:その秘密兵器は何でしょうか?外メディアは、この秘密兵器は「若い天才」であり、彼らは資金力のあるアメリカの巨人と競争できるだけの力を持っていると言っています。
AI業界では、経験豊富なベテランを雇うのが一般的であり、多くの中国のAIスタートアップは、経験豊富な研究者や海外の博士号を持つ人材を好む傾向があります。しかし、DeepSeekは逆の道を行き、職歴のない若者を好んでいます。
DeepSeekと協力したことのあるヘッドハンターは、DeepSeekは経験豊富な技術者を採用しないと明かしました。「3-5年の経験が最大で、8年以上の経験がある人は基本的にパスです。」梁文鋒は2023年5月に36Krのインタビューで、DeepSeekの開発者の大多数は新卒か、AI職に就き始めたばかりの人たちであると述べました。彼は強調しました:「私たちのコア技術ポジションの大半は新卒や1-2年の経験を持つ人が占めています。」
職歴がないDeepSeekは、どのように人を選ぶのでしょうか?答えは、潜在能力を見ることです。
梁文鋒はかつて言いました、「長期的な事をする場合、経験はそれほど重要ではなく、基礎能力、創造性、情熱などがより重要です。」 彼は、現在世界ランキング50位以内のトップAI人材はまだ中国にはいないかもしれないが、「私たちは自分たちでそういう人を育てることができる。」
この戦略は、OpenAIの初期戦略を思い起こさせます。OpenAIは2015年末に設立された際、Sam Altmanの核心的な考えは、若くて野心的な研究者を探すことでした。そのため、社長のGreg BrockmanとチーフサイエンティストのIlya Sutskeverを除いて、残りの4人のコア創業技術チームメンバー(Andrew Karpathy、Durk Kingma、John Schulman、Wojciech Zaremba)は全員新卒の博士卒業生であり、それぞれスタンフォード大学、オランダのアムステルダム大学、カリフォルニア大学バークレー校、ニューヨーク大学を卒業しています。
左から右へ:Ilya Sutskever(前チーフサイエンティスト)、Greg Brockman(前社長)、Andrej Karpathy(前技術責任者)、Durk Kingma(前研究員)、John Schulman(前強化学習チーム責任者)、Wojciech Zaremba(現技術責任者)
この「幼狼戦略」は、OpenAIに甘い果実をもたらし、GPTの父Alec Radford(民間の三流大学卒)、文生図モデルDALL-Eの父Aditya Ramesh(NYUの学部生)、GPT-4oのマルチモーダル責任者であり、三度のオリンピック金メダリストPrafulla Dhariwalなどを育てました。設立初期に世界を救う計画が明確でなかったOpenAIは、若者たちの突進によって生き残りの道を切り開き、DeepMindの傍らにいた無名の存在から巨人へと成長しました。
梁文鋒はSam Altmanの成功した戦略を見て、この道を選ぶことを決意しましたが、OpenAIがChatGPTを見つけるまで7年を待ったのとは異なり、梁文鋒の投資は2年余りで成果を上げ、まさに中国のスピードです。
3. DeepSeekの声を上げる
DeepSeek R1に関する記事では、その各指標が驚くほど優れていることが示されています。しかし、皆の疑念も引き起こしました:二つの疑問があります。
① それが使用する専門家混合(MoE)技術は、トレーニング要求が高く、データ要求も高いことを示しており、DeepSeekがOpenAIのデータを使用してトレーニングしているという疑念は正当です。
② DeepSeekが使用する強化学習(RL)技術は、ハードウェアに対する要求が非常に高いですが、MetaやOpenAIの万カードクラスターと比較して、DeepSeekのトレーニングは2048枚のH800だけで行われました。
計算能力の制限とMoEの複雑さにより、500万ドルで一度成功したDeepSeek R1は少し疑わしく見えますが、R1に対する態度がその「低コストの奇跡」を崇拝するものであれ、「華やかさだけで実質がない」と疑うものであれ、その機能的な革新の眩しさを無視することはできません。
BitMEXの共同創設者Arthur Hayesは、DeepSeekの台頭が世界の投資家にアメリカの卓越主義を疑問視させるのか?アメリカの資産価値は過大評価されているのか?と発言しました。
スタンフォード大学の教授、吴恩达は今年のダボスフォーラムで公に言いました:「私はDeepSeekの進展に感銘を受けています。彼らは非常に経済的な方法でモデルをトレーニングできると思います。彼らが最新に発表した推論モデルは非常に優れています……「頑張れ!」」
A16zの創設者、Marc Andreessenは、「Deepseek R1は私が見た中で最も驚くべき、最も印象的な突破の一つであり、オープンソースとしては世界への深い贈り物です。」と述べました。
2023年、舞台の隅に立っていたDeepSeekは、ついに2025年、旧正月前に世界のAIの頂点に立ちました。
4. ArgoとDeepSeek
Argoの技術開発者およびAIGC研究者として、私はArgoの重要な機能をDeepSeek化しました:ワークフローシステムとして、粗い原始的なワークフロー生成作業はDeepSeek R1を使用して行われました。さらに、ArgoはLLMを標準のDeepSeek R1として内蔵し、クローズドソースの高価なOpenAIモデルを捨てることを選びました。その理由は、ワークフローシステムには通常、大量のトークン消費とコンテキスト情報(平均>=10kトークン)が含まれるため、高価なOpenAIやClaude 3.5を使用すると、ワークフローの実行コストが非常に高くなり、web3ユーザーが真の価値を獲得する前に、このような前払いの支出は製品に対する損害となるからです。
DeepSeekがますます良くなるにつれて、ArgoはDeepSeekを代表とする中国の力とより密接に協力していく予定です:Text2Image/Videoインターフェースの中国化、LLMの中国化を含むが、これに限りません。
協力の面では、Argoは今後、DeepSeekの研究者を招待して技術成果を共有し、トップAI研究者に助成金を提供し、web3の投資家やユーザーがAIの進展を理解する手助けを行う予定です。