主ネットワークのローンチが近づいていますが、AIデータの分散ストレージプロトコルEpiKはどのようにゴミデータを有効データに変えるのでしょうか?
執筆:Zeo Zhang
出典:ChainNews
テンセントの創業者マ・フアテンは、2017年の「スマート新時代に進む」中国(深セン)ITリーダーサミットで次のように述べました:
現在、多くのビッグデータはゴミデータです。なぜなら、ラベルがないからです。どんなに優れたアルゴリズムを使っても、結果は得られません。データのクレンジングやラベル付けは非常に難しく、私たちは多くの人手をかけてデータをクレンジングし、その後AIに学習させる必要があります。
この言葉は、人工知能の発展の難しさを物語っています。インターネットとコンピュータの数十年にわたる進化の後、アルゴリズムと計算能力の蓄積は人工知能を新たな段階に押し上げましたが、高品質で有効なデータが不足していることが、人工知能の発展を妨げる重要な理由の一つとなっています。この問題を解決するために、テストネットが1年間安定して稼働しているAIデータの分散ストレージプロトコルEpiK Protocolは、ブロックチェーンを組み合わせた解決策を提案しました。
2021年8月15日、テストネットが1年間安定して稼働しているAIデータの分散ストレージプロトコルEpiK Protocolは正式にメインネットを立ち上げます。データのラベル付け、分散ストレージ、データアプリケーションなどの機能を初めて統合したプロジェクトとして、EpiK Protocolは市場における有効なデータの不足問題を解決し、共に構築し共有するAIデータの分散ストレージプロトコルを構築しようとしています。
なぜ有効なデータが不足しているのか?
一方で、プラットフォームは虚偽のデータ操作を黙認し、さらには奨励しているため、無用なデータが横行しています。
伝統的なインターネット業界において、データ操作の現象は日常茶飯事です。新しく開店したネットショップの90%以上は、客流を引き寄せるためにデータ操作を選択します。登録者数が100万人を超えるWeChatの大号でも、広告主のデータニーズを満たすために閲覧数を操作することがよくあります。さらに、ある旅行プラットフォームは、機械と人間を組み合わせて、数千万件のユーザーレビューを偽装して発表したことが報じられ、ユーザーによる製品の真の評価に影響を与えました。
常に公開、透明、チェーン上で追跡可能であることを標榜するブロックチェーン業界においても、データ操作の現象は依然として珍しくありません。分散ストレージ分野のスタープロジェクトであるFilecoinも「無効データ」の疑問に直面しました。Filecoinネットワークが立ち上がった当初、高いマイニング報酬が多くのマイナーを引き寄せ、一部のマイナーは外部プログラムを利用して虚偽のデータを注入したり、無価値なゴミデータを自らパッケージ化したりしました。
Filecoinのストレージ計算能力は急速に増加し、その結果、ストレージされるデータ量が短期間で爆発的に増加しました。さらに、Filecoinネットワークは当初、ストレージされたデータを識別できず、実際の有効データは非常に少なく、大量の物理ストレージが無駄になり、Filecoinエコシステム全体の発展に悪影響を及ぼしました。
他方で、データ処理コストが高止まりしており、多くの人工知能が負担に耐えられません。
ご存知の通り、人工知能は継続的な深層学習を必要とし、これには膨大なデータ量が支えとなります。
膨大なユーザー群が毎日インターネット上で活動し、複雑なデータを生成しています。しかし、これらのデータは直接使用できません。人工知能の深層学習にはデータセットの取得やデータのラベル付けが必要であり、その中でもデータのラベル付けは巨大な人件費を引き起こします。
広く深層学習ネットワークを応用するには、大量のラベル付けされたデータが必要ですが、ビッグデータ時代においては、膨大なデータが存在するにもかかわらず、ほとんどは未ラベルのデータです。これらのトレーニングデータのラベル付けは人手で行う必要があります。
データの品質要求が高まるほど、データのラベル付けの要求はより細かくなり、ラベル付け担当者の質と専門知識の要求も高くなり、それに伴いコストも高くなります。
長い間、これらのデータは専用のデータラベル分類会社(例えば、Amazon Mechanical)によって加工され、人工知能などのデータニーズ分野の発展に供されてきました。しかし、ユーザー-データ処理会社-データニーズ者の三者協力により、有効なデータの取得コストは非常に高くなっています。
ラベル付け、ストレージ、販売:EpiK Protocolのワンストップデータサービス
EpiK Protocolエコシステムは、分野の専門家、バウンティハンター、データ企業の3つの役割を導入し、去中心化された大規模な共建共有共益のAIデータストレージプロトコルを構築することを目指しています。去中心化ストレージ技術IPFS、去中心化自律組織DAO、およびトークン経済モデルを通じて、世界中のコミュニティメンバーが人類の各分野の知識を整理し、利用可能なAIデータにし、永続的な知識庫を継続的に更新することを奨励します。
データラベル付けの面では、EpiK ProtocolはC端ユーザー向けにAIデータラベル付けシステムを接続します。
「分野の専門家」は異なる分野のAIデータフォーマットを設計し、データラベル付けタスクを発表します。誰でも「バウンティハンター」として登録し、データラベル付けに参加してAI教師となり、EPKトークンの報酬を得ることができます。
データラベル付けが完了した後、「バウンティハンター」は処理したデータを返却し、「分野の専門家」は担当する分野のAIデータを検収し、EPKトークンの報酬を得ます。さらに、「分野の専門家」はデータ結果に基づいてAIデータフォーマットを最適化し、良性の循環の中でデータ品質が継続的に向上します。
データストレージの面では、EpiK ProtocolはAIデータストレージシステムを導入します。
ラベル付けが完了し、検収を通過したデータは「分野の専門家」によってAIデータストレージシステムにアップロードされ、分散ストレージが行われます。データストレージに参加するデバイスもEPKトークンの報酬を得ることができます。
データ販売の面では、データ企業はEPKを担保にデータにアクセスし、AIデータストレージシステムから有効データを有料でダウンロードできます。
EpiK ProtocolのAIデータラベル付けシステムはC端ユーザーに直接向けられており、中間業者であるデータラベル付け会社の存在を排除し、データ処理の流れを簡素化しているため、コストが低くなります。例えば、1つの有効なAI音声方言データのコストは、従来の市場では約12元ですが、EpiK Protocolシステムでは約2元で、従来の市場の1/6です。
さらに重要なのは、EpiK Protocolシステムには各業界の「分野の専門家」がデータガバナンスを行っているため、EpiK Protocolシステムで生成される有効データは、異なるAI分野のデータニーズにより正確に合致することができるということです。
B端、C端、業界専門家の協力によるオープン経済モデル
現在の分散ストレージが主にB端のアーカイブデータストレージサービスのビジネスモデルに集中しているのとは異なり、EpiK ProtocolはB端企業、C端ユーザー、分野の専門家が協力する去中心化されたAIデータストレージプロトコルであり、コスト管理、収益向上、サービス体験の面で、中央集権的なインターネットの巨人に匹敵する能力を持っています。
C端ユーザー:より低いデータラベル付けのハードル
EpiK ProtocolはC端ユーザー向けにAIデータ収集アプリ「知識大陸」を開発し、データラベル付けのハードルを下げ、同時に楽しさを向上させました。カートゥーンのインターフェースと明快なレイアウトにより、データラベル付けという退屈で複雑な作業が楽しいゲームに変わり、ゲーム化された形式で世界中のコミュニティメンバーが大規模なオープンAIデータベースを共に構築することができます。
あらゆる業界が「知識大陸」でAIデータタイプを作成できます。金融、医療、法律、ソーシャル、Eコマースなど、知識大陸の発展と応用に伴い、データニーズのある企業はここで共同協力してデータを収集、整理、処理することができます。
次に、EpiK Protocolのラベル付け効率はより高いです。AIデータラベル付けシステムが運営されてから3週間で、EpiK Protocolは17272件の有効データをラベル付けし、データ指標は完全で、各データは最大10回の人手による検証を受けました。従来のラベル付け方法と比較して、EpiK Protocolのラベル付け効率はほぼ10倍向上しています。
最も重要なのは、EpiK Protocolのデータラベル付けに参加するユーザーがより高い報酬を得られることです。従来のデータラベル付けモデルでは、データ処理者は単なる労働力であり、データの配当権を持ちません。しかし、EpiK Protocolでは、データに貢献することで得られるEPKは、実際にはデータの株式を得ることを意味し、後の使用過程での利益配当を共有します。後にデータニーズが増大するほど、EPKの需要も高まり、EPKは価値が上がり、EPK保有者は利益を得ることができます。
B端ユーザー:有効データを奨励
EpiK ProtocolのAIデータストレージシステムは、クラシックな1 + 3構成、すなわち1デーモン + 3マイナー(8コア16G、250G SSD、3T HDD、15M帯域幅)を採用しています。Filecoinと比較して、EpiK ProtocolのAIデータストレージシステムは、出塊に必要な最小計算能力が0で、ストレージは無料で、指定ノードは不要で、デフォルトで無限のコピーと無限の時間が可能であり、各ストレージデバイスを十分に活用できます。
最も重要なのは、Filecoinでは無用データをストレージしても計算能力を得られますが、EpiK Protocolのストレージシステムでは「分野の専門家」によって検証されたデータのみが計算能力を得られます。これにより、データの高品質が保証されるだけでなく、無効データがストレージスペースを浪費する悪影響をさらに抑制します。
プロジェクトチーム
EpiK Protocolは業界のトップアドバイザーと実力派投資機関を擁しています。著名なAI科学者、SigularityNETの創設者、世界初のロボット市民Sophiaの父である首席科学者Ben GoertzelがEPIKプロトコルのアドバイザーに就任し、EPIKの欧米データ市場の推進を支援し、高品質なAIデータエコシステムの構築を助けています。
資金調達の面では、EpiK ProtocolはFBG Capital、JACKDAW、1475、ChainUp Capital、7 O'clock Capitalなどの機関からの支持を受け、AIデータの分散ストレージが新たな勢いで一般の視野に入る手助けをしています。
メインネットが間もなく立ち上がる
チームの最新情報によると、EpiK「メインネット1.0ロゼッタ」は2021年8月15日正午12時に正式に立ち上がります。この時間はEpiKテストネットが立ち上がってから1周年の時でもあります。現在、テストネット5.0では測定ノードが6万を超え、安定して出塊しています。
メインネットの立ち上がりが近づくにつれ、マイニングもEpiK Protocolユーザーの注目の焦点の一つとなっています。EpiK ProtocolエコシステムのインセンティブトークンであるEPKの総発行量は10億で、その具体的な配分ルールは以下の通りです:
- 創世チーム:5%、90日ごとに1/16を解放;
- 財団:5%、90日ごとに1/4を解放;
- 投資家:20%、90日ごとに1/7を解放;
- コミュニティ:70%、出塊速度は90日ごとに減少し、4年で半減し、50年で完了します。
EpiK ProtocolはAIデータラベル付けとAIデータストレージの2つのシステムを持ち、2つの主要な参加方法に対応しています:
第一の方法は、AIデータのラベル付けに参加し、EPKバウンティハンターになることです。余暇の時間を利用して異なるAI分野のデータラベル付けに参加し、タスクを完了するほどEPKの収益が高くなります。真剣に答えることで知識バッジNFTを獲得するチャンスもあり、後にNFTを使ってEPKエアドロップイベントに参加できます。
第二の方法は、AIデータのストレージに参加し、EPKストレージノードになることです。余剰のストレージデバイスを利用してAIの有効データをストレージすることができ、各ストレージノードは出塊権を持つために1000 EPKの基本担保を完了する必要があります。ストレージノードはランダムに出塊の機会を得ますが、そのランダムに選ばれる確率は成功したストレージデータのサイズに関連しています。ストレージするデータが多いほど、選ばれる確率が高くなり、同じファイルのTop100ストレージ者は二重の計算能力を享受します。
「分野の専門家」によって検証されたデータのみが有効なストレージとしてカウントされ、ストレージノードは計算能力を得ることができます。そのため、より多くの有効ストレージを得るためには、追加のトラフィック担保を完了する必要があります。1 EPKは10 Mibのデータにアクセスするために使用でき、また10 Mibのデータをパッケージ化するためにも使用できます。現在、基本担保の引き出しのロック解除期間は0日、トラフィック担保の引き出しのロック解除期間は3日です。
結論
EpiK Protocolは分散ガバナンスの分野での探求も開始し、7月20日にEpiK DAOを発表しました。分散ストレージ分野で初のDAOガバナンスモデルとして、コミュニティユーザーはEpiK DAOを通じてEpiKエコシステムのリソースの動的調整に参加し、EpiKコミュニティの持続可能な発展を効果的に保障し、将来発生する可能性のあるリソースのミスマッチ問題を修正します。
Web 3.0時代の到来が近づくにつれ、データの重要性がますます際立っています。EpiK Protocolはデータラベル付けからデータの分散ストレージ、さらには企業とのデータアプリケーションの接続までを行い、低いハードルと高い効率のデータ収益共有のクローズドループを構築しました。今後、EpiK Protocolがどのように豊かな実用シーンを実現するかが期待されます。