從芯片到數據:AI 的下一場戰役

推薦閱讀
2025-01-23 12:27:50
收藏
本文將探討數據池的萎縮,及去中心化 AI (DeAI)如何在解決這一挑戰中扮演關鍵角色。

作者:OORT創始人、哥倫比亞大學教授李崇博士(Max Li)

當全球依舊聚焦於圍繞 AI 芯片的戰爭------關稅、知識產權限制、供應鏈制裁以及地緣政治紛争時,直接左右AI 未來發展的數據荒問題,顯然被忽略了。

今年年初,埃隆·馬斯克便敏銳地指出,AI 公司已經耗盡了訓練模型的數據,甚至"用盡"了人類知識的總和。

本文將探討數據池的萎縮,及去中心化 AI (DeAI)如何在解決這一挑戰中扮演關鍵角色。

數據之戰降臨

首先要明確一點:數據並非取之不盡用之不竭。

數據之戰早有先兆:2023 年,一群視覺藝術家對 Stability AI、MidJourney 和 DeviantArt 提起了一場具有里程碑意義的訴訟,指控這些公司在未獲得許可的情況下使用他們的作品來訓練生成式 AI 模型(如 Stable Diffusion)。與此同時,馬斯克指責 OpenAI 等公司未經授權"抓取"推特(現為 X 平台)的數據,促使 X 平台收緊 API 定價和訪問限制。

無獨有偶,Reddit 大幅提高 API 定價,擾亂了依賴 Reddit 用戶生成內容進行 AI 模型訓練的 OpenAI 和 Anthropic 等公司。Reddit 將這一決定視為其數據貨幣化的方式,但也引發了關於用戶數據平台和尋求使用這些數據的 AI 公司之間緊張關係的辯論。

這些事件凸顯了一個日益明顯的現實:我們正在耗盡合法和倫理上可用的數據。

數據的多個戰線

芯片戰聚焦於生產最強大的硬體,而數據戰在於獲取合適的數據集以訓練 AI。倫理、高質量數據的日益稀缺,已成為一眾企業發展AI的瓶頸。

對於大公司而言,最可行的方式是從中心化巨頭那裡獲取數據,雖然代價高昂。然而,小型企業卻面臨有限且通常難以承受的選擇。沒有適當的收集數據的方法或渠道,這些公司將在未來AI發展和創新賽道大幅落後。

那麼我們到底如何以倫理且有效的方式收集推進 AI 開發所需的數據?

數據戰爭將在多個前沿展開,每個方面都帶來獨特的挑戰與機遇。

數據收集

誰掌控數據收集的管道?如何做到倫理與合法?

隨著針對科技巨頭的訴訟因非法抓取或使用數據而堆積如山,新興的舉措也開始出現。例如,哈佛大學率先推動獲得用戶同意的數據貢獻,為公眾提供開放訪問數據集。儘管此類項目有其價值,但遠不足以滿足商業 AI 應用的需求。

合成數據也逐漸成為一種潛在解決方案。Meta 和微軟等公司已開始利用 AI 生成數據來微調模型,如 Llama 和 Phi-4。Google 和 OpenAI 也在工作中採用了合成數據。然而,合成數據也面臨自身的挑戰,例如模型"幻覺"問題,這可能會影響其準確性和可靠性。

去中心化的數據收集提供了另一種有前景的選擇。通過利用區塊鏈技術並使用加密貨幣激勵個體安全共享數據,去中心化模式可以解決隱私、所有權和質量問題。這些解決方案還民主化了數據訪問,使小型企業能夠在 AI 生態系統中競爭。

數據質量

低質量的數據會導致模型偏差、不準確的預測,並最終引發對 AI 系統的不信任。我們如何確保用於 AI 訓練的數據是準確且具有代表性的?

行業常見做法包括:

  • 嚴格的數據驗證:公司採用先進的驗證技術過濾數據集中的錯誤、不一致性和噪聲。這通常涉及人工監督、自動化過程或兩者結合來驗證數據完整性。
  • 偏差緩解策略:為了確保數據具有代表性,企業實施偏差檢測工具和多樣化的採樣技術。例如,在醫療領域,數據集必須包括不同人口群體,以避免可能影響診斷模型的偏差。
  • 遵循標準:ISO/IEC 27001 等數據安全行業框架和其他新興倫理 AI 指導正成為確保數據質量和符合全球標準的必要條件。
  • 眾包質量檢查:亞馬遜機械土耳其人(Amazon Mechanical Turk)等平台被用於標記和驗證數據等任務。儘管成本低,但這些方法需要監督以確保一致性和準確性。
  • 去中心化驗證:區塊鏈和去中心化系統正逐步成為認證數據來源、確保數據真實性和防篡改的工具。

此外,各國監管機構還面臨著建立全面數據隱私和安全規則的迫切挑戰,這些規則需要平衡個人權利與技術創新,同時應對諸如保護敏感數據免受網絡威脅、外國利用以及敵對實體濫用等關鍵國家安全問題。

前路崎嶇

數據戰爭的影響深遠。例如,在醫療行業,高質量患者數據的獲取可以徹底改變診斷和治療計劃,但嚴格的隱私法規構成了障礙。同樣,在音樂行業,使用倫理數據集訓練的 AI 模型可以改變從作曲到版權執行的一切,前提是它們尊重知識產權。

這些挑戰突顯了去中心化解決方案的重要性,這些方案優先考慮數據透明度、質量和可訪問性。通過利用去中心化系統,我們可以創造一個更加公平的數據生態系統,使個人保留對其數據的控制權,企業能夠訪問倫理且高質量的數據集,並在不損害隱私或安全的情況下推動創新。

從芯片戰到數據戰的轉變將重塑 AI 生態系統及其演變過程,為去中心化數據解決方案提供領先的機會。通過優先考慮倫理數據收集和可訪問性,去中心化 AI 有潛力彌合差距,引領更公平、更具創新性的 AI 未來。

爭奪最佳數據的戰鬥已經開始。我們是否準備好應對?

鏈捕手ChainCatcher提醒,請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅係市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可點擊“舉報”,我們會及時處理。
ChainCatcher 與創新者共建Web3世界