Alaya AI:如何透過 Web3 的遊戲化設計提高 AI 數據的標註效率?
作者:Alaya AI
項目簡介
Alaya AI是一個創新的AI數據標註平台,旨在利用區塊鏈技術、零知識證明、共享經濟模式以及先進的AI數據標籤和整理技術,推動AI行業的發展。該項目允許用戶在貢獻數據的同時獲得獎勵,並利用區塊鏈和ZK技術保護用戶隱私和數據所有權。
Alaya AI通過用戶答題的方式收集數據,並使用內置的AI系統判定用戶貢獻的準確性,從而給予相應的Token獎勵。隨著用戶的NFT等級提升,問題難度也會逐步增加,覆蓋從常識到專業領域的各類問題。最終,Alaya AI會將收集到的數據進行標準化處理,以便各類AI模型進行識別和訓練。
賽道分析
傳統經濟學認為勞動力、土地與資本是主要的生產要素,在人工智慧時代邏輯可能悄悄發生了變化,算法、數據和算力成為了生產三要素。就當前對於大語言模型的探索而言,算法端仍在基於Tranformer做細微的調整,算力端持續堆疊,而高質量的數據才是制約模型和算法突破瓶頸的關鍵指標。隨著各家公司開始訓練各自的AI大模型,對數據的需求水漲船高。
在傳統世界,數據標註業務已經支撐起千億市值賽道,較為知名的公司包括Scale AI、Appen、海天瑞聲、雲測數據等。然而,傳統的數據標註業務無法很好地觸達全球用戶,加劇了不同地區之間的不平等。據報導,OpenAI所使用的位於肯尼亞的外包數據標註員時薪不足1.5美元,每天約標註20萬單詞。
在Web3中,利用區塊鏈技術,數據的所有權可以歸屬於數據提供者個人。去中心化的數據存儲和交易機制,使得個人能夠更好地掌控自己的數據資產,按需進行交易和授權,從而獲得相應的激勵和回報。這種模式讓數據標註者的權益得到更好的保障。基於區塊鏈的不可篡改和可追溯特性,Web3數據服務能夠提供更高的透明度和可信賴性。每筆數據交易、標註任務的分配和完成情況都將被記錄在鏈上,任何人都可以進行查驗,減少造假和作惡的可能。數據使用方可以僅信任鏈上數據,而無需額外的信任背書。
產品設計
為了降低用戶參與的門檻,Alaya AI設計了一個遊戲化的產品,通過用戶在產品內答題的方式來收集數據,並使用密碼學算法保障用戶的隱私不被洩露。
For AI, By AI. 與強化學習的思想很像,Alaya AI產品內置了AI來幫助識別數據的質量,判定用戶對於AI數據判斷的準確性和貢獻度,並以此為依據發放激勵。此外,Alaya AI將引入聲譽機制和質量驗證節點,對標註結果進行去中心化驗證。通過質量驗證節點的隨機抽檢和交叉驗證,可以更高效地識別錯誤或惡意標註,維護標註結果的高質量。在任務分配上,Alaya AI使用AI算法輔助的任務分配法,能夠高效的將任務與用戶匹配。用戶貢獻的高質量數據越多,所持有的NFT等級將越高,問題的難易度也會隨之上升。從普通的常識問題,到特定領域(駕駛,遊戲,影視等)的細分問題,最後到進階領域的問題(醫療,科技,算法等)。
可行性分析
儘管傳統的數據標註公司有壓榨員工的嫌疑,但是這對公司的盈利有很大幫助。Web3的數據標註雖然能夠以更加平等的方式提高人類福祉,但是從經濟上這是否會降低平台的收益?實際上,Alaya AI通過增加多樣性的方式提高了總體效用。
傳統的數據標註方式不僅對個體的工作量要求高,其樣本質量也難以保證。由於標註報酬微薄,平台大多只能招募發展中地區的用戶,而這些地區受教育程度普遍偏低,用戶提交的樣本缺乏多樣性。對於需要專業知識的高階AI模型,平台難以招募到合適的標註人員。
利用代幣/NFT獎勵和邀請返利等方式,Alaya將社交與遊戲元素融合進普通的數據標註中,這有效地擴大了社群規模,並使用每日簽到等方式提高了留存率。在控制單個用戶通過任務獲得的獎勵額度的同時,Alaya的裂變式推薦體系能夠讓優質用戶的收益隨著社交網絡規模擴大而無限增長。
本質上而言,Web2時代的中心化數據平台高度依賴少數用戶持續提供大量樣本,而阿拉亞降低了單個用戶貢獻數據的數量,而擴大了參與用戶的數量。在單個用戶工作量低的前提下,貢獻數據質量將得到明顯提升,數據的代表性顯著增強。由於觸達的用戶數量更多,去除了抽樣偏差的去中心化的數據標註平台所採集的數據更能代表人類整體的群體智慧。
為了避免個別用戶因為不熟悉問題領域/惡意提交的錯誤答案影響數據質量,Alaya AI平台採用正態分佈模型來校驗數據,並自動剔除或標準化極端值。此外,Alaya依託自研的優化算法,通過用戶答案和權重的交叉引用實現校驗,而無需人工檢查修正,進一步降低了數據成本。其中,數據有效性閾值會根據每個任務的樣本量進行動態調整,避免過度修正,將數據造成的扭曲降到最低。
技術特點
Alaya AI作為數據生產者(個人用戶)與數據消費者(AI模型)之間的中間層,採集用戶標註的數據,經處理後交給AI模型使用。
Alaya AI採用創新的微數據模型(Tiny Data),在傳統大數據的基礎上進行優化和迭代,從多個方面提高了深度學習的訓練效果:
- 數據質量優化
微數據模型聚焦於高質量的小規模數據集,通過數據清洗、標註優化等手段,提高數據的準確性和一致性。高質量的訓練數據可以有效提升模型的泛化能力和魯棒性,減少噪聲數據對模型性能的負面影響。 - 數據特徵濃縮
微數據模型採用特徵工程和數據濃縮技術,提取數據的關鍵特徵,去除冗餘和無關信息。濃縮後的數據集包含更高密度的有效信息,能夠加速模型的收斂速度,同時降低計算資源消耗。 - 樣本均衡優化
深度學習模型的性能往往受到數據分佈不平衡的影響。微數據模型採用智能的數據採樣策略,對不同類別的樣本進行均衡化處理,確保模型在各個類別上都有足夠的訓練數據,提高模型的分類準確率。 - 主動學習策略
微數據模型引入主動學習策略,通過模型反饋動態調整數據選擇和標註過程。主動學習可以優先選擇對模型提升效果最大的樣本進行標註,避免低效的重複勞動,提高數據利用效率。 - 增量學習機制
微數據模型支持增量學習,可以在原有模型的基礎上,持續添加新的數據進行訓練,實現模型性能的迭代優化。增量學習使得模型可以持續學習和進化,適應不斷變化的應用場景需求。 - 遷移學習能力
微數據模型具備遷移學習能力,可以將已訓練好的模型應用到相似的新任務中,大大減少新任務的數據需求和訓練時間。通過知識的遷移和復用,微數據模型可以在小樣本場景下取得良好的訓練效果。
同時,Alaya AI集成了AI訓練與部署工具,支持常用的深度學習框架,使得各種AI模型都能夠直接識別並使用,降低了上游模型訓練的使用成本。此外,利用零知識證明等密碼學算法與訪問控制技術,Alaya AI全程保護用戶隱私不受侵害。
生態建設
當前Alaya AI支持Arbitrum與opBnB兩大主網,支持郵箱註冊,手機App已經登錄Google Play。
從B端來看,Alaya AI已經與超過十家AI科技公司建立了穩定合作,並且合作數量還在持續上升中。這使得Alaya實現了穩定的現金流變現,可以穩定地向用戶提供現金和Token獎勵。
從C端來看,Alaya AI當前擁有超過40萬註冊用戶,超過兩萬日活用戶,每日鏈上交易數超過1500。此外,Alaya構建了去中心化的自治社區,將以公開、透明、民主的方式決定產品的走向。
在未來,Alaya AI有望與DePIN進一步融合,內置於一體化的AI智能硬件產品中(例如,Rabbit R1),從用戶的日常互動中獲得數據,並且利用設備的閒置算力。此外,通過與去中心化算力平台(例如Akash、Golem)的合作,Alaya AI能夠建立一個AI數據+算力的統一市場,使得AI開發者只需專注於算法的優化。在數據的存儲方面,Alaya AI可以將完成標註的數據存儲與IPFS、Arweave等去中心化存儲協議,並同去中心化的AI模型市場(例如,Bittensor)積極展開合作,用去中心化的數據訓練去中心化的模型。
代幣激勵
Alaya AI的代幣系統主要分為兩部分,一部分用於用戶激勵,另一部分用於生態激勵。
第一部分是AIA token,AIA是Alaya的基本平台激勵token,用戶完成任務,實現里程碑和參與產品內的其他活動皆可獲得AIA token的獎勵。AIA token還可以用於用戶NFT的升級,活動參與的門檻以及獨特成就的獲取,這些都可以增加玩家在產品裡面的基本產出。AIA token具備基本的產出與消耗場景,且二者相互促進。
第二部分是 AGT token,AGT 是Alaya的治理代幣,最大发行量為50億。AGT用於生態系統開發,高級NFT的升級和參與社區治理等行為。用戶必須持有AGT才能參與社區治理,數據審查和發出請求等。
Alaya Ai的雙代幣模型使得經濟激勵與治理分離,這樣可以避免治理代幣的大幅波動影響系統經濟激勵的穩定性,使整個系統具備更強的可擴展性,更有利於系統長期良性發展。
競品分析
將現有的去中心化數據標註項目對比列表如下:
從競品分析來看,新項目與老項目相比,在代幣表現上會更好。同時,有真實用戶數據支撐的項目要顯著優於缺少用戶的項目。Alaya AI作為擁有超過40萬註冊用戶,超過兩萬日活用戶,每日鏈上交易數超過1500的新興項目,發幣後大概率獲得更好的價值支撐。
Reference
Website: https://www.aialaya.io/
Twitter: https://twitter.com/Alaya_AI
Telegram: https://t.me/Alaya_AI
Medium: https://medium.com/@alaya-ai
Deck: https://docsend.com/view/tvrctaq5hyen5max
Contact Person: ALAYA AI
郵箱地址:Alaya-AI@aialaya.io
City: Auckland New Zealand