NGC Ventures 最新研究:9 月了,對 AI 創業的冷思考與建議
作者:CherryIn,Investment Manager, NGC Ventures
本文初稿於八月底休息日摸魚之餘完成,草率發布後受到了諸多指教,筆者遂增改刪了一部分內容,以免貽笑大方。
本文的內容主要是站在投資視角對 AI 行業的現狀進行評價、對不同公司的技術 / 產品路線進行反思和猜想、對 AI 行業公司的戰略進行抽象總結。因此,涉及到具體技術的部分,難免有疏漏,還請多包涵。
不過說到底,能發論文的幾家大公司還撕的不可開交,似乎也沒人能評價本文內容的正誤。就像用 GPT-4 給 GPT-3.5 打分一樣,看起來合理,仔細想想是有點抽象的。
因此筆者建議,將本文視為對不確定性行業的信息搜集後形成的「判斷」。既然是判斷,立場必須鮮明,必須言之有物。至於判斷到底對不對,就留給時間檢驗吧。
筆者始終認為:新行業噪音大,多動腦、敢於下判斷總是沒錯的。對於判斷題,盲猜的正確率是 50%,而連續猜錯三次的概率是 12.5%,哪怕是扔硬幣級別的下判斷,也是有意義的。下判斷並不可怕,判斷準確率低於扔硬幣才是最可怕的。
在正式開啟本文之前,需要感謝以下工作,為本文提供了寶貴的靈感和數據源。當然,由於本文有許多推論都是基於這些工作,如果其中包含錯誤、或筆者理解有誤,本文的推論也將不再穩健,請讀者自行甄別。本文不構成投資建議,也很難構成投資建議。
- Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance(https://arxiv.org/abs/2305.17306)
- LIMA: Less Is More for Alignment(https://arxiv.org/abs/2305.11206)
- June 2023, A Stage Review of Instruction Tuning(https://yaofu.notion.site/June-2023-A-Stage-Review-of-Instruction-Tuning-f59dbfc36e2d4e12a33443bd6b2012c2)
- GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE(https://www.semianalysis.com/p/gpt-4-architecture-infrastructure)
好了,讓我們正式開始本文。
大模型:發射賽博火箭
2023 年討論 AI 的第一步,就是討論大模型創業到底還能不能做。
大模型(的預訓練)目前已經轉化成了發射火箭問題,只要燒的起、方向對,誰都能做。可以說,訓練大模型就是在發射賽博火箭。
一個反常識的事情是,投資人對大模型訓練的難度是低估的,而對發射真火箭的難度是高估的。同樣是 6000 萬美元的成本,投資人會覺得火箭升空失敗還可以有第二次機會,而訓練大模型失敗則被認為是浪費資金。
GPT-4 在 OpenAI 的 GPU 利用效率(爆料稱約等於 30%)上,仍然消耗了 6000 萬美元。這是一個{性能=效率×成本}的問題,而性能是道牆,如果其他的初創公司不能實現大於 30%×6000 萬=1800 萬美元的性能效果,則用戶不如直接用 GPT-4。
目前,許多號稱訓練大模型的公司的融資輪次在 100 萬到 500 萬美元這個區間。也就是說,即使是最大融資額的公司,其彈藥量也只足夠支持一次發射。而這次發射的 GPU 利用率即使達到了 100%,也很難超過 GPT-4。
從這個角度來說,發射火箭是更好做的,因為目前大部分火箭都是運載火箭,帶著衛星上天,而單次負載量有限,所以小的火箭公司可以接別人來不及發射的衛星單。
大模型則不同,大模型的橫向擴展的邊際成本只有算力成本,而算力成本可以是彈性擴張的,也就意味著對於大模型公司來說,每一單的利潤都是白撿的利潤,幾乎不用付出額外成本,承接能力非常大。對於新成立的、質量差的大模型公司來說,很難接到溢出的需求。
除非訓練成本大幅度下降,否則即使知道了 GPT-4 的全部架構,許多公司短期也很難做出可投入市場的大模型。
定制化:直面「贏家通吃」問題
在硬件行業,一種常見的現象是通過定制化需求來實現早期的利潤,再通過早期利潤實現技術突破(或者追平)。然而大模型行業的定制化很難成為新進者的出路。
關於這個判斷,解釋起來非常簡單:絕大多數微調後的模型追不上 GPT-4,即使追上了,直接使用 GPT-4 泛化的成本更低、人员需求更少、運氣需求更少、數據需求更少。只要 GPT-4 和其他模型的斷檔級性能差距還存在,定制化就不能成為大模型公司的出路。
一個非常典型的例子是 Jasper,使用微調的 GPT-3 服務企業客戶,然而在 OpenAI 公開了 ChatGPT(GPT-3.5)之後,其用戶迅速流失。因為 Jasper 的產出物可以通過為 GPT-3.5 輸入簡單的 prompt 來得到,而無需使用一個泛化能力差和僅限企業內部使用的「落後版本」。
相比於新公司,Jasper 至少還有一個 GPT-3 到 GPT-3.5 的空窗期用來發展。然而現在的新公司需要同時面對低成本高速度的 GPT-3.5 和高性能的 GPT-4 的擠壓。
因此,寄希望於通過定制化積累利潤從而實現技術突破的路線,生存概率很低。
微調:必要,別迷信
目前的 AI 行業對微調有一種不合實際的期待,這種期待從具體的技術實現和從宏觀的技術節奏來說,都是過於高估的。
行業目前所討論的微調,絕大多數指「在預訓練模型的基礎上,使其生成符合人類意圖的回答」。這種微調可以稱為「對齊」,也就是讓回答對齊人類意圖,而不是為大模型增智慧。
根據多篇論文的研究結果,大模型的知識應該主要來自預訓練,而微調更多用在對齊上。
簡單解釋就是,預訓練決定腦容量,微調決定母語。為預訓練模型進行微調,是一個「掃除文盲」的過程。
然而,目前行業中經常將微調視為一種為模型「增智慧」的方法,也就是通過微調提高模型性能、增加模型知識,認為這樣就可以抵達「人工智能的聖杯」。這種思路是有些偏頗的。
首先,模型本身的性能並沒有提高,只是能更好地對齊人類意圖,如果任務的複雜度超過了模型的性能,微調並不能收穫如期的結果。就像是讓人腦進行量子運算一樣,做不到不是教育的問題。
其次,在「意圖對齊」的部分進行「知識補充」,效果更類似於「鸚鵡學舌」。即:模型只是模仿專家說話,而並沒有理解其中的含義。儘管很多行業用「鸚鵡學舌」已經能得到很好的方案(畢竟大多數行業都不複雜嘛…),但這顯然不是我們應當在長期追求的結果。
最後,對於「補充額外數據集,提高模型性能,增加模型知識」的訓練,應當被視為模型具有「增量學習 / 持續學習」的能力,即:模型的全參數可以通過增量數據集進行優化。這和所謂的「指令微調」並非同一個範疇的概念。
總的來說,微調是非常重要的,但對當下的微調報以「迷信」的態度是錯誤的,特別是急於將當下的微調封為聖杯的言論,頗有一種「如今物理學的大廈上只飄著兩朵烏雲」的意味。
退一步講,如果「增智慧」的需求真的可以通過指令微調來解決,做個簡單的向量搜索、直接把知識塞上下文裡、再簡單寫幾個 prompt 模板,大概率能有一樣甚至更好的效果。
大家都喜歡微調,可能也是煉丹技藝在現代的一種復興吧…
大模型展望:四則運算
(注意,此部分內容完全基於 Dylan Patel 爆料的數據,可靠性暫無法驗證)
GPT-4 的訓練基於 N 卡的 A 系列,訓練效率 30%,訓練時間大約 2 個月,成本約 6000 萬,總參數量為{1.7 萬億=1100 億×16 個專家模型},處理單個問題的參數在 2800 億左右。
也就是說,有幾個關鍵參數,會導致大模型訓練的格局發生變化。
- 訓練效率:從 30% 提高到 60% 可以直接縮短一倍時間
- 算力密集度提高:從 A 系列換成 H 系列再換成 AI 專用卡後,算力密集度提高,很多架構上影響效率的問題都可以解決
- 算力成本下降:老黃(Nvidia 創始人)給顯卡打折,顯著的成本下降
- 參數效率提高:模型的參數效率存在提高空間,參考以往新模型對老模型的參數效率通常能提高多倍,可能使用 GPT-4 的 30% 的參數就可以達到類似的效果
綜上所述,從零訓練出 GPT-4 級別性能的模型的成本可能有 10~20 倍的優化空間,也就是壓縮到 300 萬美元~600 萬美元,這個成本對於初創公司和大公司費控而言,都是更容易接受的。
而這個變化,可能需要 2 年左右的時間來完成。
目前,主流大模型的技術仍然基於 transformer,基礎架構沒有變化,煉丹加參數的大力出奇跡思路仍未窮盡。GPT-4 的訓練在算力限制很大的基礎上進行,且訓練時間不夠長。
如果參數是隨訓練時間線性增長的,類似於 GPT-4 的架構的模型的參數上限可能是 10 萬億左右,即:訓練時間多一倍(×2),並行顯卡多一倍(×2),訓練效率快一半(×1.5),參數效率高一半(×1.5),最終得到十倍的結果。按照矽谷的風險偏好風格,這個參數量大概率會在一年內達到,無關乎性能到底有沒有提高。
然而在達到 10 萬億參數後,LLM 是否還能使用增加參數的思路大力出奇跡,就是一件完全未知的事情了。
如果參數量對模型性能的提升是邊際遞減的,則 10 萬億很可能是個坎。然而,也有一種猜想是參數量對模型性能的提升是邊際遞增的,類似於「一個人如果足夠聰明則學什麼都快」。前者還好,假如後者成真了,模型性能可能會發生指數級提高,屆時發生什麼將完全無法預測。
預測煉丹很難,但預測企業戰略節奏很容易。總參數 10 萬億的模型對於絕大多數企業,無論是 Google/MS/APPL 這種巨無霸,還是小一點的 OpenAI,都是一個里程碑級別的終點,是可以停一停、做些技術探索的位置。
企業 / 資本對於風險的偏好可以折算成一個「忍受時間」,如果整個忍受時間都在劇烈燃燒費用,則很難超過 6 個月。人類的工藝成長速度不夠快,通常以 5 年甚至更長時間為一個周期。因此,在 5 年內,模型的極限參數量是可以估計出來的,應當是 20 萬億~50 萬億。除非再次發生工藝 / 架構上的巨大突破,否則,超過這個數量級的概率很低。
多模態:房間裡的大象
多模態是房間裡的大象,可能會深刻影響到賽道的格局。
多模態的簡單定義是:支持對多種模態信息的輸入和輸出。這個定義很鬆,比如市面上一些宣稱自己能進行多模態輸入的產品,其實是 ChatBot 外面套了一層 OCR。也有完全符合多模態定義的模型,但其性能就讓人不敢恭維了。就連 GPT-4 的圖像多模態輸入能力也還沒有大範圍開放,可以看出這個功能並不是很穩定。
不過,多模態的發布並不是一件遙遠的事情。GPT-5 大概率是原生支持多模態的,也就是需要重新設計結構、重新訓練。而根據前文的推理,大模型的參數還有 10 倍~50 倍的成長空間,在其中放入多模態能力,應該是足夠的。因此,可以預計,高可用高性能的多模態模型會在 2 年內出現,樂觀點的話,1 年差不多了。
多模態是房間裡的大象,大家都知道最終會有這樣的東西,但很多產品 / 研究 / 戰略都忽視了其存在,以至於在關鍵部分存在誤判。
例如,單一圖像模型理論上會受到多模態模型的嚴重壓迫,但目前大多數研究 / 投資都忽視了這個問題,導致給一些專注於圖像模型的公司過高的估值。這些公司未來很可能會失去技術壁壘、轉型成服務商,其估值體系應當參考服務提供商、而不是技術公司。
如果要講「投資看人,同一個團隊可以做業務轉型」的故事,就當我沒說。傳奇總是在的,但做研究不能笃信傳奇。
誰能訓練 GPT-4:都能,但沒必要
煉丹不需要那麼久,且大公司都在買顯卡。一個非常顯而易見的事情是,一年後,大型公司都會有能力訓練 GPT-4 級別的模型。不過到底要不要訓練,就是另一個問題了。
在遊戲領域,有一個經典的命題叫做「有原神玩原神」,即:當玩家可以選擇玩原神或者一款原神的競品時,如果競品做的不如原神好,則玩原神。
這種「贏家通吃」的思路同樣適用於大模型行業。如果一家公司緊隨 OpenAI 之後,經過半年的研發,推出了自己的媲美 GPT-4 的 90% 的性能的大模型,希望推向市場。此時,該公司會面臨如下問題:
- OpenAI 存在雲資源的規模優勢,成本更低
- OpenAI 的 API 已經在產品代碼裡大量使用,更換難度大
- 該公司的產品性能仍然沒有超過 GPT-4
- OpenAI 的次世代產品(可能是 GPT-5)即將發布
可以看出,該公司的壓力是相當大的。比起訓練 GPT-4,還不如直接押注次世代模型(對標 GPT-5)。然後問題就會從「同類競品問題」轉換成「技術創新問題」。這是小公司難以承受之重。
因此,討論「誰能訓練 GPT-4」是一個戰略上的死題,比起思考這個問題,不如找找更有確定性、更有機會的方向。
給 AI 初創公司的建議:性能為先,避免停留
筆者曾經撰寫過多篇文章吐槽 langchain,其根本原因是 langchain 的沒給開發者留提高性能的空間。美其名曰「通用性框架」,為了保證通用性,捨棄了很多大模型的性能提高空間,例如多輪對話和微調實現的格式控制。類似的還有 guidance/Auto-GPT/BabyAGI 等,都想做「能用一輩子的框架」。
一個客觀事實是,OpenAI 在 5 月份發布了 Function Calling,很多代碼中麻煩的地方都有了更好的實現方案,而實現更好方案的代價就是重構產品代碼的關鍵部分。8 月份,OpenAI 又發布了微調 GPT-3.5 的權限,很多需要精確控制輸出的環節又有了新的潛在方案。
因此,初創公司必須面對一個關鍵選項:是選擇①提高性能、不停重構產品,還是②減少使用新特性、始終使用老特性進行開發?
對於新技術應用的創業,「開發」不僅僅代表著寫代碼的過程,也代表產品功能 / 戰略方面的「上限」。可以駕馭的性能越高,產品的理論功能越多、戰略靈活性越高。
技術的發展無法預測,而微小的技術革新可能帶來高度敏感的競爭格局變化,初創公司對技術的發展應當具有反脆弱的能力。
------說人話就是:性能優先,避免停留。開發層面,多用新特性;產品方面,思考新特性能做什麼功能;戰略方面,考慮到新特性對戰略的影響。
《過秦論》中,曾提到秦朝在建立之後收繳了天下的金屬兵器,將其鑄成了十二個銅人,來消滅民間起義的可能性。但秦朝是出了名的短命王朝。比起無視變化,還是重視變化更有利些。
給 AI 初創公司的建議:放心做應用
初創公司做應用有一個非常常見的隱患:大公司入場。這裡的大公司不僅包括應用巨無霸,例如 Meta/ 字節 / 騰訊等,也包括 AI 行業的上游,如 OpenAI。
大公司入場的原因通常有兩個:佈局產品機會,以及上游切下游。
「佈局產品機會」是字面含義,大公司覺得這個方向值得做,於是做了。
「上游切下游」多是無奈之舉,可能是因為自己研發了對標 OpenAI 的大模型,但因為大模型贏家通吃的問題,沒有用戶,導致燒費用、沒營收、沒數據,進而導致性能逐漸落後。此時,切入下游、開發具體的應用、使用自己的技術,是唯一選項。
根據歷史經驗,由於組織架構的問題,公司越貼近下游、技術越容易落後,而技術越落後、越不得不做下游。這些所謂的技術公司最後會和應用層公司搶奪同一個生態位。
但是,在應用層的戰場裡,由於 AI 技術出現時間很短,並沒有行之有效、可復用的規模優勢,大公司和初創公司的起點差不多。比起大公司,初創公司的效率高、洞察深,更容易占據優勢。
一個值得注意的情況是,MS Azure 現在幾乎所有宣傳材料都是圍繞 OpenAI 展開,微軟這麼大的廠子卻要完全依靠 OpenAI 作為自己的台面,從側面證明初創公司在 AI 領域有天然優勢。
當然,某些雲廠商可能無法接受被初創公司牽頭,要自己吃掉所有市場。其成本高昂、速度緩慢,並不是近在眼前的威脅。
事實是,確實有一些 AI 應用的賽道非常短命,但還有很多長命賽道沒被發掘出來,AI 的應用也並非贏家通吃。從應用延伸到平台或技術,也是更加可行的通路。
因此,我們應該理性看待大公司侵入應用層的能力。我們的建議是,AI 初創公司可以放心做應用。
給 AI 初創公司的建議:注意產品生命線
前文提到,AI 初創公司可以放心做應用,但要考慮到 AI 模型的性能問題,避免停留。這種狀況,直接表現為 AI 產品可能在數個月內失去需求基礎、並逐漸凋零,而這種情況可能是頻繁發生的。
AI 應用需要使用大模型的服務,大模型的性能不斷提高。這種提高不是「速度」等單一維度的改善,而是輸出質量、輸出長度、輸出控制性等全方面的改變。每一次技術的顯著升級都會導致已有應用層產品的技術落後,並創造出新的機會和競爭對手。
我們將 AI 應用在戰略 / 產品 / 技術上保有優勢和必要性的時間稱為「生命線」。
以下是一些生命線較短的例子:
- 當 ChatGPT/Claude 支持文件上傳後,ChatPDF 失去必要性
- 當 Office365 支持 Copilot 後,使用 AI 畫 PPT 的產品失去優勢
- 當 GPT-3.5 出現後,Jasper 失去必要性
考慮到 AI 行業的發展很快,生命線有限是常態。因此,接受生命線有限的事實,並盡量選擇生命線較長的方向發展,有利於保持長久的優勢和產品必要性。
一般地,可以將生命線簡單劃分為 3/6/12 個月的級別。
- 3 個月:大公司來不及做的功能(如 office/ChatGPT 還沒來得及做的功能)
- 6 個月:有一定實現難度、無法融入既有方案,但優勢 / 必要性會隨 AI 性能提高而消失(如通用 AI 框架)
- 12 個月:優勢 / 必要性能夠長期存在,不易被大公司 / 技術發展影響(如 Hugging Face)
* 平台類產品的生命周期並不一定長,畢竟 prompt 商店也是平台
初創公司在確定方向時只要有 6 個月級別的生命線就可以做了,12 個月級別的生命線可遇不可求。
當產品生命線到盡頭,一般有兩種情況。第一種情況是優勢消失,需要重構產品升級技術,請參考上文「性能為先」;第二種情況是必要性消失,產品將逐漸被取代,此時產品仍有數個月的「運營壽命」,足夠初創公司選取下個方向。
給 AI 初創公司的建議:Web3+AI 可以做
目前圍繞 Web3+AI 主題進行創業的項目已有很多,而考慮到技術發展的不確定性和市場的早期性,Web3+AI 的話題在未來還有諸多變數。
本文旨在於不確定性中尋找大概率正確的確定性,因此,筆者仍希望拋磚引玉,提出一些可能存在機會的題材和方向,供初創公司和感興趣的研究者參考。
- 去主權化 / 去中心化
目前,AI 行業的領跑者只提供閉源模型,其持續提供服務的穩定性、透明性、中立性均不可控。去主權化 / 去中心化可能成為 AI 行業一個重要的題材,即:基於去主權化 / 去中心化的基本架構,提供穩定、透明、中立的 AI 服務。
去主權化 / 去中心化是一種「備選方案」,也是一種「震懾」,能夠顯著提高中心化 / 主權化的 AI 公司的不道德成本,阻止其將 AI 模型使用在軍事、邪教、政治等方面。
而在極端情況中,一旦中心化 / 主權化 AI 服務因某些緣故不再可用 / 可信,去主權化 / 去中心化 AI 可持續提供高可用的服務,防止個別國家 / 地區乃至人類失去 AI 服務陷入癱瘓狀態。
- 算力實用化
ETH 從 PoW 轉向 PoS 的背後是遭人詬病的「挖礦不產生價值」的困境,而將 Web3 與 AI 結合,可提供算力實用化的場景,從而實現存量算力消化和推動總算力成長等效果。
- 虛擬資產化
AI 是原生於算力和存儲上的資產,Web3 與 AI 的結合可以提供將 AI 轉化為虛擬資產的通道,在實現 AI 行業的價值實例化的同時,為 Web3 創造真正的原生虛擬資產。
- Web3 應用的變數
Web3 與 AI 的結合可能為 Web3 應用帶來新的功能點和成長機會,現有的 Web3 應用可以全部重做一遍。
寫在最後:9 月了,現在的 AI 還值得創業嗎
先說結論:值得,且這個結論大概率可以沿用到過年。
人對狀況的感知經常有偏差,筆者也不例外。有人過於樂觀,有人過於悲觀。筆者曾經與兩個團隊交流,一個團隊認為自己明年 Q1 就能做出 AI Agent,另一個團隊則覺得 AI 只適合做些知識庫管理的工作,顯然前者過於樂觀,而後者悲觀過頭了。
在做遠景規劃時,過於樂觀和過於悲觀都會掉到坑裡,而廣泛傳播的言論又往往是這些偏差很大的言論,獨立思考顯得弥足珍貴。因此,不論讀者是否能夠接受本文的觀點,只要讀者在閱讀過程中產生了獨立的思考和判斷,筆者就無比欣慰了。