IOSG:GPU 供應危機,AI 初創企業破局之路

IOSG Ventures
2024-03-05 10:40:16
收藏
GPU集群可能會像CDN一樣看到類似的聚合命運

作者:Mohit Pandit, IOSG Ventures

摘要

GPU短缺是現實,供需緊張,但未充分利用的GPU數量可以滿足當今供應緊缺的需求。

需要一個激勵層來促進雲計算的參與,然後最終協調用於推理或訓練的計算任務。DePIN模型正好適合這一用途。

因為供應方的激勵,因為計算成本較低,需求方發現這很吸引人。

並非一切都是美好的,選擇Web3雲時必須做出某些權衡:比如'延遲'。相對於傳統的GPU雲,面臨的權衡還包括保險、服務水平協議 (Service Level Agreements) 等。

DePIN模型有潛力解決GPU可用性問題,但碎片化模型不會使情況變得更好。對於需求呈指數級增長的情況,碎片化供應和沒有供應一樣。

考慮到新市場參與者的數量,市場聚合是不可避免的。

引言

我們正處於機器學習和人工智能的新时代邊緣。雖然AI已經以各種形式存在一段時間(AI是被告知執行人類可以做的事情的計算機設備,如洗衣機),但我們現在見證了複雜認知模型的出現,這些模型能夠執行需要智能人類行為的任務。顯著的例子包括OpenAI的GPT-4和DALL-E 2,以及谷歌的Gemini。

在迅速增長的人工智能(AI)領域,我們必須認識到發展的雙重方面:模型訓練和推理。推理包括AI模型的功能和輸出,而訓練包括構建智能模型所需的複雜過程(包括機器學習算法、數據集和計算能力)。

以GPT-4為例,最終用戶關心的只是推理:基於文本輸入從模型獲取輸出。然而,這種推理的質量取決於模型訓練。為了訓練有效的AI模型,開發者需要獲得全面的基礎數據集和巨大的計算能力。這些資源主要集中在包括OpenAI、谷歌、微軟和AWS在內的行業巨頭手中。

公式很簡單:更好的模型訓練 >> 導致AI模型的推理能力增強 >> 從而吸引更多用戶 >> 帶來更多收入,用於進一步訓練的資源也隨之增加。

這些主要玩家能夠訪問大型基礎數據集,更關鍵的是控制著大量計算能力,為新興開發者創造了進入壁壘。因此,新進入者經常難以以經濟可行的規模和成本獲得足夠的數據或利用必要的計算能力。考慮到這種情況,我們看到網絡在民主化資源獲取方面具有很大價值,主要是與大規模獲取計算資源以及降低成本有關。

GPU供應問題

NVIDIA的CEO Jensen Huang在2019年CES上說"摩爾定律已經結束"。今天的GPU極度未充分利用。即使在深度學習/訓練周期中,GPU也沒有被充分利用。

以下是不同工作負載的典型GPU利用率數字:

空閒(剛剛啟動進入Windows操作系統):0-2%
一般生產任務(寫作、簡單瀏覽):0-15%
視頻播放:15 - 35%
PC遊戲:25 - 95%
圖形設計/照片編輯主動工作負載(Photoshop、Illustrator):15 - 55%
視頻編輯(主動):15 - 55%
視頻編輯(渲染):33 - 100%
3D渲染(CUDA / OptiX):33 - 100%(常被Win任務管理器錯誤報告 - 使用GPU-Z)

大多數帶GPU的消費設備屬於前三類。

圖片GPU運行時利用率%。Source: Weights and Biases

上述情況指向一個問題:運算資源利用不良。

需要更好地利用消費者GPU的容量,即使在GPU利用率出現高峰時,也是次優的。這明確了未來要進行的兩件事情:
資源(GPU)聚合
訓練任務的並行化

可以使用的硬件類型方面,現在有4種類型用於供應:
· 數據中心GPU(例如,Nvidia A100s)
· 消費者GPU(例如,Nvidia RTX3060)
· 定制ASIC(例如,Coreweave IPU)
· 消費者SoCs(例如,蘋果M2)

除了ASIC(因為它們是為特定目的而構建的),其他硬件可以被匯集以最有效地利用。隨著許多這樣的芯片掌握在消費者和數據中心手中,聚合供應方的DePIN模型可能是可行的道路。

GPU生產是一個體量金字塔;消費級GPU產量最高,而像NVIDIA A100s和H100s這樣的高級GPU產量最低(但性能更高)。生產這些高級芯片的成本是消費者GPU的15倍,但有時並不提供15倍的性能。

整個雲計算市場今天價值約4830億美元,預計未來幾年將以約27%的複合年增長率增長。到2023年,將有大約130億小時的ML計算需求,按照當前標準費率,這相當於2023年ML計算的約560億美元支出。這整個市場也在迅速增長,每3個月增長2倍。

GPU需求

計算需求主要來自AI開發者(研究人員和工程師)。他們的主要需求是:價格(低成本計算)、規模(大量GPU計算)和用戶體驗(易於訪問和使用)。在過去兩年中,由於對基於AI的應用程序的需求增加以及ML模型的發展,GPU需求量巨大。開發和運行ML模型需要:

大量計算(來自訪問多個GPU或數據中心)

能夠執行模型訓練、微調 ( fine tuning) 以及推理,每個任務都部署在大量GPU上並行執行

計算相關硬件支出預計將從2021年的170億美元增長到2025年的2850億美元(約102%的複合年增長率),ARK預計到2030年計算相關硬件支出將達到1.7萬億美元(43%的複合年增長率)。

ARK Research

隨著大量LLM處於創新階段,競爭驅動對更多參數的計算需求,以及重新訓練,我們可以預期在未來幾年內對高質量計算的持續需求。

隨著新的GPU供應緊縮,區塊鏈在哪裡發揮作用?

當使用資源不足的時候,DePIN模型就會提供出其幫助:

啟動供應方,創建大量供應
協調和完成任務
確保任務正確完成
為完成工作的提供者正確獎勵

聚合任何類型的GPU(消費者、企業、高性能等)可能會在利用方面出現問題。當計算任務被分割時,A100芯片不應該執行簡單的計算。GPU網絡需要決定他們認為應該包括在網絡中的GPU類型,根據他們的市場進入策略。

當計算資源本身分散(有時是全球性的)時,需要由用戶或協議本身做出選擇,決定將使用哪種類型的計算框架。提供者像io.net允許用戶從3種計算框架中選擇:Ray、Mega-Ray或部署Kubernetes集群在容器中執行計算任務。還有更多分佈式計算框架,如Apache Spark,但Ray是最常用的。一旦所選GPU完成了計算任務,將重構輸出以給出訓練有素的模型。

一個設計良好的代幣模型將為GPU提供者補貼計算成本,許多開發者(需求方)會發現這樣的方案更有吸引力。分佈式計算系統本質上具有延遲。存在計算分解和輸出重構。所以開發者需要在訓練模型的成本效益和所需時間之間做出權衡。

分佈式計算系統需要有自己的鏈嗎?

網絡有兩種運作方式:

按任務(或計算周期)收費或按時間收費
按時間單位收費

第一種方法,可以構建一個類似於Gensyn所嘗試的工作證明鏈,其中不同GPU分擔"工作"並因此獲得獎勵。為了更無信任的模型,他們有驗證者和告密者的概念,他們因保持系統的完整性而獲得獎勵,這是基於解算者生成的證明。

另一個工作證明系統是Exabits,它不是任務分割,而是將其整個GPU網絡視為單個超級計算機。這種模型似乎更適合大型LLM。

Akash Network增加了GPU支持,並開始聚合GPU進入這一領域。他們有一個底層L1來就狀態(顯示GPU提供者完成的工作)達成共識,一個市場層,以及容器編排系統,如Kubernetes或Docker Swarm來管理用戶應用程序的部署和擴展。

一個系統如果要是無信任,工作證明鏈模型將最有效。這確保了協議的協調和完整性。

另一方面,像io.net這樣的系統並沒有將自己構建為一個鏈。他們選擇解決GPU可用性的核心問題,並按時間單位(每小時)向客戶收費。他們不需要可驗證性層,因為他們本質上是"租用"GPU,在特定租賃期內隨意使用。協議本身沒有任務分割,而是由開發者使用像Ray、Mega-Ray或Kubernetes這樣的開源框架完成。

Web2與Web3 GPU雲

Web2在GPU雲或GPU即服務領域有很多參與者。這一領域的主要玩家包括AWS、CoreWeave、PaperSpace、Jarvis Labs、Lambda Labs、谷歌雲、微軟Azure和OVH雲。

這是一個傳統的雲業務模型,客戶需要計算時可以按時間單位(通常是一小時)租用GPU(或多個GPU)。有許多不同的解決方案適用於不同的用例。

Web2和Web3 GPU雲之間的主要區別在於以下幾個參數:

  1. 雲設置成本

由於代幣激勵,建立GPU雲的成本顯著降低。OpenAI正在籌集1萬億美元用於計算芯片的生產。看來在沒有代幣激勵的情況下,打敗市場領導者需要至少1萬億美元。

  1. 計算時間

非Web3 GPU雲將會更快,因為已租用的GPU集群位於地理區域內,而Web3模型可能有一個更廣泛分布的系統,延遲可能來自於低效的問題分割、負載平衡,最重要的是帶寬。

  1. 計算成本

由於代幣激勵,Web3計算的成本將顯著低於現有的Web2模型。

計算成本對比:

圖片當有更多供應和利用集群提供這些GPU時,這些數字可能會發生變化。Gensyn聲稱以低至每小時0.55美元的價格提供A100s(及其等價物),Exabits承諾類似的成本節省結構。

4. 合規性

在無許可系統中,合規性並不容易。然而,像io.net、Gensyn等Web3系統並不將自己定位為無許可系統。在GPU上線、數據加載、數據共享和結果共享階段處理了GDPR和HIPAA等合規性問題。

生態系統

Gensyn、io.net、Exabits、Akash

風險

  1. 需求風險

我認為頂級LLM玩家要麼會繼續積累GPU,要麼會使用像NVIDIA的Selene超級計算機這樣的GPU集群,後者的峰值性能為2.8 exaFLOP/s。他們不會依賴消費者或長尾雲提供商匯集GPU。當前,頂級AI組織在質量上的競爭大於成本。

對於非重型ML模型,他們將尋求更便宜的計算資源,像基於區塊鏈的代幣激勵GPU集群可以在優化現有GPU的同時提供服務(以上是假設:那些組織更喜歡訓練自己的模型,而不是使用LLM)

  1. 供應風險

隨著大量資本投入ASIC研究,以及像張量處理單元(TPU)這樣的發明,這個GPU供應問題可能會自行消失。如果這些ASIC可以提供良好的性能:成本權衡,那麼大型AI組織囤積的現有GPU可能會重新回歸市場。
基於區塊鏈的GPU集群是否解決了一個長期問題?雖然區塊鏈可以支持除GPU之外的任何芯片,但需求方的所作所為將完全決定這一領域內項目的發展方向。

結論

擁有小型GPU集群的碎片化網絡不會解決問題。沒有"長尾"GPU集群的位置。GPU提供商(零售或較小的雲玩家)將傾向於更大的網絡,因為網絡的激勵更好。會是良好代幣模型的功能,也是供應方支持多種計算類型的能力。

GPU集群可能會像CDN一樣看到類似的聚合命運。如果大型玩家要與AWS等現有領導者競爭,他們可能會開始共享資源,以減少網絡延遲和節點的地理接近性。

如果需求方增長得更大(需要訓練的模型更多,需要訓練的參數數量也更多),Web3玩家必須在供應方業務發展方面非常積極。如果有太多的集群從相同的客戶群中競爭,將會出現碎片化的供應(這使整個概念無效),而需求(以TFLOPs計)呈指數級增長。

Io.net已經從眾多競爭者中脫穎而出,以聚合器模型起步。他們已經聚合了Render Network和Filecoin礦工的GPU,提供容量,同時也在自己的平台上引導供應。這可能是DePIN GPU集群的贏家方向。

鏈捕手ChainCatcher提醒,請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅係市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可點擊“舉報”,我們會及時處理。
banner
ChainCatcher 與創新者共建Web3世界