AIxDePIN:火熱賽道的碰撞將誕生哪些新機遇?

CGV
2024-01-20 14:16:46
收藏
Web3 x AI系列研報第二輯。

作者:Cynic Shigeru,CGV Research

利用算法、算力與數據的力量,AI技術的進步正在重新定義數據處理和智能決策的邊界。與此同時,DePIN代表了從中心化基礎設施向去中心化、基於區塊鏈的網絡的範式轉變。

隨著世界邁向數字化轉型的步伐不斷加快,AI和DePIN(去中心化物理基礎設施)已成為推動各行各業變革的基礎性技術。AI與DePIN的融合,不僅能夠促進技術的快速迭代和應用廣泛化,還將開啟更為安全、透明和高效的服務模式,為全球經濟帶來深遠的變革。

DePIN:去中心化脫虛向實,數字經濟中流砥柱

DePIN,是去中心化物理基礎設施(Decentralized Physical Infrastructure)的縮寫。從狹義上說,DePIN主要指由分佈式賬本技術支撐的傳統物理基礎設施的分佈式網絡,例如電力網絡、通信網絡、定位網絡等。從廣義上說,所有由物理設備支撐的分佈式網絡都可以稱之為DePIN,例如存儲網絡、計算網絡。

from: Messari

如果說Crypto在金融層面帶來了去中心化的變革,那麼DePIN就是實體經濟中的去中心化方案。可以說,PoW礦機,就是一種DePIN。從第一天起,DePIN就是Web3的核心支柱。

AI三要素------算法、算力、數據,DePIN獨占其二

人工智能的發展通常被認為依賴於三個關鍵的要素:算法、算力和數據。算法指驅動AI系統的數學模型和程序邏輯,算力指執行這些算法所需的計算資源,數據是訓練和優化AI模型的基礎。

三要素中哪個最重要?chatGPT出現之前人們通常認為是算法,不然學術會議、期刊論文也不會被一篇又一篇的算法微調所填充。可當chatGPT與支撐其智能的大語言模型LLM亮相之後,人們開始意識到後兩者的重要性。海量的算力是模型得以誕生的前提,數據質量和多樣性對於建立健壯和高效的AI系統至關重要,相比之下,對於算法的要求不再如往常精益求精。

在大模型時代,AI從精雕細琢變為大力飛磚,對算力與數據的需求與日俱增,而DePIN恰好能夠提供。代幣激勵撬動長尾市場,海量的消費級算力與存儲將成為大模型提供最好的養料。

AI的去中心化不是可選項,而是必選項

當然有人會問,算力和數據,在AWS的機房中都有,而且在穩定性、使用體驗方面都勝過DePIN,為什麼要選擇DePIN而不是中心化的服務?

這種說法自然有其道理,畢竟縱觀當下,幾乎所有大模型都是由大型的互聯網企業直接或間接開發的,chatGPT的背後是微軟,Gemini的背後是谷歌,中國的互聯網大廠幾乎人手一個大模型。為何?因為只有大型的互聯網企業擁有足夠的優質數據與雄厚財力支撐的算力。但這是不對的,人們已經不想再被互聯網巨頭操縱一切。

一方面,中心化的AI具備數據隱私和安全風險,可能受到審查與控制;另一方面,互聯網巨頭製造的AI會使人們進一步加強依賴性,並且導致市場集中化,提高創新壁壘。

from: https://www.gensyn.ai/

人類不應該需要一個AI紀元的馬丁路德了,人們應該有權利直接和神對話。

商業角度看DePIN:降本增效是關鍵

哪怕拋開去中心化與中心化的價值觀之爭,從商業角度來看,將DePIN用於AI仍然有其可取之處。

首先,我們需要清晰地認識到,儘管互聯網巨頭手中掌握了大量的高端顯卡資源,散入民間的消費級顯卡組合起來也能構成非常可觀的算力網絡,也就是算力的長尾效應。這類消費級顯卡,閒置率其實是非常高的。只要DePIN給到的激勵能超過電費,用戶就有動力為網絡貢獻算力。同時,所有物理設施被用戶自身所管理,DePIN網絡無需負擔中心化供應商無法避免的運營成本,只需關注協議設計本身。

對於數據而言,DePIN網絡通過邊緣計算等方式,能夠釋放潛在數據的可用性,降低傳輸成本。同時,多數分佈式存儲網絡而言具備自動去重功能,減少了AI訓練數據清洗的工作。

最後,DePIN所帶來的Crypto經濟學增強了系統的容錯空間,有望實現提供者、消費者、平台三贏的局面。

from: UCLA

以防你不相信,UCLA最新的研究表明相同成本下使用去中心化計算相比傳統GPU集群實現了2.75倍的性能,具體來說,快了1.22倍且便宜4.83倍。

筚路維艱:AIxDePIN會遇到哪些挑戰?

We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard.

------John Fitzgerald Kennedy

運用DePIN的分佈式存儲與分佈式計算無信任地構建人工智能模型仍然具備許多挑戰。

工作驗證

從本質上,計算深度學習模型與PoW挖礦都是通用計算,最底層都是門電路之間的信號變化。宏觀而言,PoW挖礦是"無用的計算",通過無數的隨機數生成與哈希函數計算試圖得出前綴有n個0的哈希值;而深度學習計算是"有用的計算",通過前向推導與反向推導計算出深度學習中每層的參數值,從而構建一個高效的AI模型。

事實是,PoW挖礦這類"無用的計算"使用了哈希函數,由原像計算像很容易,由像計算原像很難,所以任何人都能輕易、快速地驗證計算的有效性;而對於深度學習模型的計算,由於層級化的結構,每層的輸出都作為後一層的輸入,因此驗證計算的有效性需要執行之前的所有工作,無法簡單有效地進行驗證。

from: AWS

工作驗證是非常關鍵的,否則,計算的提供者完全可以不進行計算,而提交一個隨機生成的結果。

有一類想法是讓不同的伺服器執行相同計算任務,通過重複執行並檢驗是否相同來驗證工作的有效性。然而,絕大多數模型計算是非確定性的,即使在完全相同的計算環境下也無法復現相同結果,只能在統計意義上實現相似。另外,重複計算會導致成本的快速上升,這與DePIN降本增效的關鍵目標不相符。

另一類想法是Optimistic機制,先樂觀地相信結果是經過有效計算的,同時允許任何人對計算結果進行檢驗,如果發現有錯誤,可以提交一個Fraud Proof,協議對欺詐者進行罰沒,並對舉報者給予獎勵。

並行化

之前提到,DePIN撬動的主要是長尾的消費級算力市場,也就注定了單個設備所能提供的算力比較有限。對於大型AI模型而言,在單個設備上進行訓練的時間會非常長,必須通過並行化的手段來縮短訓練所需時間。

深度學習訓練的並行化主要的難點在於前後任務之間的依賴性,這種依賴關係會導致並行化難以實現。

當前,深度學習訓練的並行化主要分為數據並行與模型並行。

數據並行是指將數據分佈在多台機器上,每台機器都保存一個模型的全部參數,使用本地的數據進行訓練,最後對各個機器的參數進行聚合。數據並行在數據量很大時效果好,但需要同步通信來聚合參數。

模型並行是當模型大小太大無法放入單個機器時,可以將模型分割在多台機器上,每台機器保存模型的一部分參數。前向和反向傳播時需要不同機器之間通信。模型並行在模型很大時有優勢,但前後向傳播時的通信開銷大。

對於不同層之間的梯度信息,又可以分為同步更新與異步更新。同步更新簡單直接,但是會增加等待時間;異步更新算法等待時間短,但是會引入穩定性問題。

from: Stanford University, Parallel and Distributed Deep Learning

隱私

全球正在掀起保護個人隱私的思潮,各國政府都在加強對個人數據隱私安全的保護。儘管AI大量使用公開數據集,真正將不同AI模型區分開的還是各企業專有的用戶數據。

如何在訓練過程中得到專有數據的好處同時不暴露隱私?如何保證構建的AI模型參數不被洩露?

這是隱私的兩個方面,數據隱私與模型隱私。數據隱私保護的是用戶,而模型隱私保護的是構建模型的組織。在當前的情況下,數據隱私比模型隱私重要得多。

多種方案正在嘗試解決隱私的問題。聯邦學習通過在數據的源頭進行訓練,將數據留在本地,而模型參數進行傳輸,來保障數據隱私;而零知識證明可能會成為後起之秀。

案例分析:市場上有哪些優質項目?

Gensyn

Gensyn是一個分佈式計算網絡,用於訓練 AI 模型。該網絡使用基於Polkadot的一層區塊鏈來驗證深度學習任務是否已正確執行,並通過命令觸發支付。成立於2020年,2023年6月披露一筆4300萬美元的A輪融資,a16z領投。

Gensyn使用基於梯度的優化過程的元數據來構建所執行工作的證書,並由多粒度、基於圖形的精確協議和交叉評估器一致執行,以允許重新運行驗證工作並比較一致性,並最終由鏈本身確認,來保證計算的有效性。為了進一步加強工作驗證的可靠性,Gensyn引入質押來創建激勵。

系統中有四類參與者:提交者、求解者、驗證者和舉報者。

  • 提交者是系統的終端用戶,提供將要計算的任務,並為已完成的工作單元付費。
  • 求解器是系統的主要工作者,執行模型訓練並生成證明以供驗證者檢查。
  • 驗證者是將非確定性訓練過程與確定性線性計算聯繫起來的關鍵,複製部分求解器證明並將距離與預期閾值進行比較。
  • 舉報人是最後一道防線,檢查驗證者的工作並提出挑戰,挑戰通過後獲得獎勵。

求解者需要進行質押,舉報者檢驗求解者的工作,如發現作惡,進行挑戰,挑戰通過後求解者質押的代幣被罰沒,舉報者獲得獎賞。

根據Gensyn的預測,該方案有望將訓練成本降至中心化供應商的1/5。

from: Gensyn

FedML

FedML 是一個去中心化協作的機器學習平台,用於在任何地方以任何規模進行去中心化和協作式 AI。更具體地說,FedML 提供了一個 MLOps 生態系統,可以訓練、部署、監控和持續改進機器學習模型,同時以保護隱私的方式在組合數據、模型和計算資源上進行協作。成立於2022年,FedML於2023年3月披露600萬美元的種子輪融資。

FedML由FedML-API和FedML-core兩個關鍵組件構成,分別代表高級API和底層API。

FedML-core包括分佈式通信和模型訓練兩個獨立的模塊。通信模塊負責不同工作者/客戶端之間的底層通信,基於MPI;模型訓練模塊基於PyTorch。

FedML-API建立在FedML-core之上。借助FedML-core,可以通過採用面向客戶端的編程接口輕鬆實現新的分佈式算法。

FedML團隊最新的工作中證明,使用FedML Nexus AI在消費級GPU RTX 4090上進行AI模型推理,比A100便宜20倍,快1.88倍。

from: FedML

未来展望:DePIN带来AI的民主化

有朝一日,AI進一步發展為AGI,彼時算力將成為事實上的通用貨幣,DePIN使得這一過程提前發生。

AI和DePIN的融合開啟了一個嶄新的技術增長點,為人工智能的發展提供了巨大的機遇。DePIN為AI提供了海量的分佈式算力和數據,有助於訓練更大規模的模型,實現更強的智能。同時,DePIN也使AI向著更加開放、安全、可靠的方向發展,減少對單一中心化基礎設施的依賴。

展望未來,AI和DePIN將不斷協同發展。分佈式網絡將為訓練超大模型提供強大基礎,這些模型又將在DePIN的應用中發揮重要作用。在保護隱私和安全的同時,AI也將助力DePIN網絡協議和算法的優化。我們期待著AI和DePIN帶來更高效、更公平、更可信的數字世界。

本篇為Web3xAI系列研報的第二輯,CGV Research團隊將圍繞"Web3與人工智能(AI)的融合"主題持續深耕,挖掘優質內容,敬請期待。

Reference

https://web.cs.ucla.edu/~harryxu/papers/dorylus-osdi21.pdf

https://web.stanford.edu/~rezab/classes/cme323/S16/projectsreports/hedgeusmani.pdf

https://gensyn.ai/

https://blog.fedml.ai/scalellm-unlocking-llama2-13b-llm-inference-on-consumer-gpu-rtx-4090-powered-by-fedml-nexus-ai/

關於AIFocus Accelerator

AIFocus Accelerator成立於2023年12月,是由 CGV與Web3 Labs共同在香港發起的專注於Web3與人工智能(AI)交叉領域的創業項目加速器。以"先投資、後加速"為服務宗旨,只有在確認投資意向後,加速器才會根據項目發展的不同階段,提供媒體推廣、組織參與行業峰會、線上合作、專題路演等定制化服務內容,挖掘和扶持具有前瞻性思維和商業化前景的Web3與AI領域融合創新項目,幫助實現快速發展。截至目前,約有30餘家投資機構、孵化器、實驗室參與AIFocus加速器,名單將在篩選確認後陸續公布。

關於Cryptogram Venture (CGV):

CGV (Cryptogram Venture) 是一家總部位於日本東京的加密投資機構,投資孵化持牌日元穩定幣JPYW。同時,CGV FoF是多家全球知名加密基金的LP。2022年以来,CGV已連續成功發起組織了兩屆日本Web3黑客馬拉松(TWSH),獲得日本文部科學省、慶應義塾大學、NTT Docomo等機構和專家的聯合支持。目前,CGV在香港、新加坡、紐約等地區設有分支機構。

鏈捕手ChainCatcher提醒,請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅係市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可點擊“舉報”,我們會及時處理。
banner
ChainCatcher 與創新者共建Web3世界