去中心化知識グラフ協力プラットフォーム構築実践
この記事はEpiK 知識プロトコルに由来します。
1月10日、EpiK 知識プロトコルが主催する「2021 オープンソース知識運動」テーマイベントは、業界に知識グラフのオープン化と相互接続の知恵の饗宴をもたらしました。イベントには、清華大学情報技術研究院副院長の邢春晓、中国計算機学会知識グラフSIG会長 / 著名な知識グラフ専門家 / OpenKGの主要発起人である王昊奋、東北大学自然言語処理実験室副主任 / 小牛思拓創業者の王会珍など、重鎮ゲストが参加しました。
この大会では、EpiKがブロックチェーンの非中央集権的な協力モデルを活用して共建・共有・共益のオープン知識庫の構想と実践を構築することが核心のハイライトとなり、多くの専門家や学者から高く評価されました。
次に、この記事ではEpiKオープンソース知識運動を以下のいくつかの側面から包括的に解析します:
なぜ非中央集権的な知識グラフ協力プラットフォームを構築する必要があるのか
オープンソース知識運動が直面する課題
EpiK 知識プロトコルの解決策
誰がこのオープンソース知識運動に参加できるのか
一、なぜ非中央集権的な知識グラフ協力プラットフォームを構築する必要があるのか
現在、人工知能の時代は後半に入り、私たちは説明できないモデルのシミュレーションに満足することはできません。AIに認知能力を与えることは、必ず突破しなければならないボトルネックです。そして、AIの認知を広げる道の中で、知識グラフは機械が人間の知識を理解するための重要なメディアとして、人工知能時代の重要なインフラストラクチャとなりつつあります。
しかし、大規模な知識グラフインフラの構築には、さまざまな分野からの膨大な知識コンテンツが関与し、データの質に対する要求が高いため、異なる分野の大量の労働力を組織して共同で投入する必要があります。しかし、知識グラフを共建するための信頼コストは非常に高く、企業間や国家間の不信感が大量の重複作業を引き起こしています。知識グラフの共建プラットフォームを構築する必要性が浮上し、共建プラットフォーム上で貢献者たちがどのように共益を共有するかは必ず解決しなければならない問題です。
2020年は、ブロックチェーンの非中央集権的ストレージ技術が成熟した年であり、無許可で改ざん不可能な追跡可能な公共データベースを構築することが可能になりました。共建・共有・共益の知識グラフ協力プラットフォームには実践的な基盤ができました。
二、オープンソース知識運動が直面する課題
ビットコインの価格は歴史的な新高値を更新し続け、DeFi、IPFS、DAOなどの新興ブロックチェーンアプリケーションが次々と登場し、ブロックチェーンの可能性が広がっています。しかし、ブロックチェーンを基盤にした共建・共有・共益の知識グラフ協力プラットフォームの構築は容易ではなく、一連の課題に直面しています。
まず、共建をどのように実現するか?各知識分野の人々を組織して、高品質の大規模な知識グラフを共同で構築するためには、効果的なインセンティブメカニズムと厳格なデータ品質検収メカニズムが不可欠です。次に、共有をどのように実現するか?知識グラフデータの共有は信頼できるストレージの問題に直面しており、各貢献者が無許可でアクセスできる改ざん不可能な公共ストレージプラットフォームを作成することが必須です。さらに、共益をどのように実現するか?知識グラフデータは0コストで複製・拡散できるため、貢献者に効率的な現金化手段を見つけることが持続的な協力の原動力となります。
これに基づき、EpiKは「非中央集権的ストレージ、非中央集権的自治組織、トークン経済モデル」という3つのブロックチェーンの最前線技術を活用し、完全な解決策を提案しました。
三、EpiK 知識プロトコルの解決策
非中央集権的な知識グラフ構築の痛点に対して、EpiKはブロックチェーン技術の応用を深く分析し、非中央集権的な知識グラフ構築のためのブロックチェーンの基盤論理に基づく技術アーキテクチャを描きました。
その中で、最も重要なのは知識ストレージ部分であり、ここではその中の3つの重要なコンポーネントを紹介します:
Storage:共有の信頼できるストレージを提供し、データは随意に改ざんされず、アクセスを拒否されることはありません;
Incentive:エコシステム内のさまざまな貢献者の役割に対してインセンティブを提供し、各方面が自身の利益を最大化しつつ、高品質の知識グラフを共建できるようにします;
DAO:コミュニティがシステムパラメータのガバナンスに参加でき、異なる発展段階に応じて動的に調整します。
1. Storage
EpiKのStorageコンポーネントはIPFSプロトコルに基づいて構築されています。IPFSは分散型ネットワーク伝送プロトコルであり、このプロトコルは接続されたコンピュータデバイスを同じファイルシステムに接続します。IPFSネットワークに提出されたファイルは、複数の部分に分割され、それぞれが独立したHash値を持ち、Merkle Trieデータ構造を利用して、分割された複数のデータブロックを同じルートノードに組織して接続し、ユニークなFile Root Hashを生成します。複数のファイルのルートも、より大きなMerkle Trie構造に組織され、ユニークなRoot Hashを形成します。
この構造の利点は、重複データブロックが重複して保存されず、ノード間でRoot Hashを同期するだけで全体のファイルに対する一貫した視点を保持できることです。各ノードはどのデータブロックを保存するかを自由に選択でき、他のノードに自分が保存しているデータブロックを通知します。各ノードは、他のノードのストレージ状況をDHTに記録し、アクセス要求を受けた際に、どのノードが対応するデータを持っているかを迅速に特定し、要求することができます。
IPFSは誠実で無私のノードをつなぎ、外部に統一されたファイルシステム操作インターフェースを提供しました。しかし、IPFSには現実の問題もあります:インセンティブメカニズムと防詐欺メカニズムが欠如しており、ノードが悪事を働く可能性やいつでもオフラインになる可能性があるため、これらの要因はIPFSだけでストレージを構築することが信頼できない理由となります。
インセンティブ手段については3-2で紹介しますが、ここではノードの潜在的な詐欺手法を簡単に紹介します。例えば、あるファイルは高可用性を確保するためにネットワーク内の複数の場所に保存されますが、今、2人のマイナーが同じファイルを保存したとネットワークに放送し、システム全体に対して2つのストレージ報酬を要求する場合、これらのマイナーは実際には同じ物理ストレージを共有している可能性があり、ファイルは実際には1つしか保存されていないため、システムは本来1つのストレージ報酬しか支払うべきではありません。これは分散システムでよく見られるウィッチ攻撃です。
ウィッチ攻撃を防ぐために、EpiKはStorageコンポーネントにFileCoinが提案したゼロ知識証明に基づく複製証明(PoRep、Proof-of-Replication)と時空証明(PoSt、Proof-of-Spacetime)の2つの検証方法を統合しました。
複製証明の役割は、ノードが要求に従ってローカルに原始データの完全な新しいコピーを保存していることを証明することです。時空証明の役割は、ノードがローカルに原始データの新しいコピーを継続的に保存していることを証明することです。
複製証明の原理は、現在のノードのグローバルユニークIDをシードとして使用し、計算集約型の暗号アルゴリズムを用いてソースファイルを封印し、その後、封印されたデータのゼロ知識証明を放送します。封印プロセスは複雑ですが、他のノードは封印プロセスの正確性を簡単に検証できます。
時空証明の原理は、ノードが定期的に保存されたファイルのランダムなゼロ知識証明を放送する必要があることです。この証明が非封印のソースファイルから生成される場合、非常に時間がかかり、ノードが証明の放送を時間通りに完了できない可能性があります。他のノードがそのノードの時空証明の放送をタイムリーに受け取れない場合、そのノードはこのファイルを失ったと見なされます。したがって、時空証明のタイムリー性を確保するために、ノードはすでに封印されたファイルデータを廃棄してはいけません。
ストレージシステムと検証メカニズムが整った後、すべてのノード間でデータの一貫性を保つ必要があります。これには、すべてのノードがファイルがどのように、どの順序で全ネットワークに放送されたかを一致させる必要があります。
ここでブロックチェーン台帳技術が導入されます。すべての新しいファイルの作成とその作成順序、ノードのファイル保存行動、ノードのストレージ証明の提出行動は、全ネットワークの合意に基づくブロックチェーン台帳に記録されます。各ノードは完全な台帳を同期し、全ネットワークと一致したデータ視点を得ます。ファイルの内容とファイルの順序が確定した後、EpiKはStorageコンポーネントに知識グラフデータベース操作ログファイルを保存できます。各ノードが順番にこれらのログファイルを同期した後、ローカルで全ネットワークと一致した完全な知識グラフデータベースを復元できます。
現在、EpiKネットワークには9000以上のノードが登録され、5000以上のノードが成功裏にストレージを提供しています。EpiKの現在の設定では、各ファイルはネットワーク内で3000部保存されます。もし3000部未満であれば、新たにストレージを提供するノードは追加のインセンティブを得ることができ、ハッカーがEpiKのファイル知識グラフデータベースをDDoS攻撃することは非常に困難になります。
さらに、全ネットワークが同じ台帳情報を同期しているため、ハッカーは全ネットワークの51%以上のノードを制御しない限り、台帳を改ざんすることはできず、攻撃コストも非常に高くなります。
2. Incentives
EpiKは知識グラフの貢献者を3つのカテゴリに分けています。データマイナー、分野の専門家、バウンティハンターです。さらに、データゲートウェイという役割のユーザーもいます。毎日、EpiKネットワークは固定数量のポイント報酬を生み出します。これらのポイントをどのように3つの役割に合理的に分配して、彼らが公共の知識グラフデータベースに貢献するように促すか、また、どのように合理的なメカニズムでポイントを回収するかがIncentivesコンポーネントで定義されています。
データマイナーは物理デバイスの提供者であり、ストレージと帯域幅リソースを提供することで利益を得ます。毎日生み出されるポイントの75%はデータマイナーグループに帰属します。
保存するデータが多いほど、利益が高くなります。提供するデータのダウンロードトラフィックが大きいほど、利益が増えます。同時に、データマイナーが自由にオフラインになることでデータバックアップが減少し、システムの安全性が低下するのを防ぐために、すべてのデータマイナーはデータマイナーになるために一部のポイントを担保する必要があります。ポイントの利益はブロックチェーン契約を通じて自動的に配布され、中間者の審査は不要です。
分野の専門家は知識グラフデータの貢献者であり、受け入れ者でもあり、システム内で唯一知識グラフデータをアップロードする権利を持つグループです。彼らは高品質の知識グラフデータを提供することで利益を得ます。毎日生み出されるポイントの9%は分野の専門家グループに帰属し、提供するデータが多いほど、利益が高くなります。しかし、異なる分野のデータ規模の違いを考慮するために、異なる分野の専門家が提供するデータの大きさは対数を取った後に比例して報酬を得ます。
もちろん、全システムで唯一データをアップロードする権利を持つグループであるため、分野の専門家には厳格な監視メカニズムがあります。まず、分野の専門家はすでに分野の専門家である人によって指名される必要があります。指名された分野の専門家は、コミュニティ内で10万票の支持を得る必要があります。各票は1ポイントがロックされることを意味します。
一度でも分野の専門家の票数(ロックされたポイント数)が10万票を下回ると、資格を失います。分野の専門家が虚偽やゴミデータをアップロードした場合、コミュニティは除名処分を行い、除名された分野の専門家を指名した人も連帯責任を負います。投票を奨励するために、毎日生み出されるポイントの1%はすべての投票に参加したユーザーに帰属し、投票が多いほど利益が高くなります。
バウンティハンターを紹介する前に、データゲートウェイについて説明します。データゲートウェイは、ユーザーが最新の第一手の知識グラフデータを取得する唯一の手段であり、データゲートウェイはデータアクセスのトラフィックを得るためにポイントを担保する必要があります。例えば、1ポイントを担保することで、毎日10MBのデータアクセスのトラフィックを得ることができます。したがって、EpiK上の知識グラフデータの需要が増えるほど、データゲートウェイが担保するポイントも増え、ポイントの需要が高まり、貢献者が持つポイントの価値も高まります。
データゲートウェイの担保ポイントの概念ができたところで、バウンティハンターについて説明します。バウンティハンターは知識グラフデータのラベラーおよび検証者であり、彼らは分野の専門家が発表したタスクを完了することで利益を得ます。
バウンティハンターの利益は、データゲートウェイが担保するポイントの量に応じて動的に変化します。データゲートウェイが担保するポイントが多いほど、EpiK上の知識グラフデータの質が良好であることを示し、私たちはデータマイナーに帯域幅を増やすようにより多くのインセンティブを与え、データアクセスサービスをよりスムーズにします。したがって、毎日生み出されるポイントの残りの15%は、より多くデータマイナーグループに配分されます。しかし、データゲートウェイが担保するポイントが少ない場合、EpiK上の知識グラフデータの質が向上する余地があることを示し、残りの15%はより多くバウンティハンターに配分され、より多くの人が参加してデータの質を向上させることができます。
エコシステム全体で、各役割はインセンティブモデルを通じて自らの利益を最大化し、データマイナーはより多くのストレージを提供し、分野の専門家に知識グラフデータの質を最適化するよう促すことで、より多くの利益を得るべきです。分野の専門家は、より新しく高品質のデータを提供し、貢献を通じてより高い利益を得るべきです。バウンティハンターは、より多くのタスクを完了してより多くの利益を得るべきであり、目に見えない手が各方面の知識グラフの共建を促進します。
3. 非中央集権的コミュニティガバナンス
自動運転車が周囲を巡回し、乗客を探しています。乗客が降りた後、この車は利益を使って充電ステーションで充電し、初期のプログラミング設定を超えて、外部の助けなしにタスクを実行する方法を決定できます。これはビットコインのコアプロトコル開発者マイク・ハーン(Mike Hearn)が説明した非中央集権的組織、つまりDAOの理想的なユースケースであり、スマートコントラクトに依存して、組織は階層のない管理の運営を実現する可能性があります。
DAOはブロックチェーンの発展過程における重要な展開であり、EpiK 知識プロトコルはこの組織形式を参考にし、非中央集権的な知識グラフの構築に応用しています。
EpiKには複数のDAOが存在し、全体のパラメータをガバナンスするEpiK DAO(各グループの利益占有率などのパラメータを変更するなど)、分野の専門家内部のパラメータをガバナンスするExperts DAO(分野の専門家間のポイント配分アルゴリズムを変更するなど)、マイナー内部のパラメータをガバナンスするMiners DAO(各ファイルのバックアップ数を変更するなど)があります。
DAO内の各レベルの役割はスマートコントラクトを通じて組織内の機能を実現し、知識グラフ構築のプロセスが自動化されたフローシステムを持つことになり、専門性と効率が大幅に向上します。DAOが運営されると、世界中の巨大な知識グラフ構築に対して巨大な生産力を解放します。
三つの要素に基づいて、EpiKの知識グラフ+ブロックチェーンモデルは前例のない活力を発揮し、オープンソース知識の共建・共有・共益プラットフォームを構築します。
四、誰がこのオープンソース知識運動に参加できるのか
EpiKオープンソース知識運動は、より多くの人々に知識グラフがAIにとって重要な価値を持つ未来を見せ、ますます多くの人々がEpiKの共建・共有・共益の行動に参加することを促しています。実際、EpiKは基盤となるデータプラットフォームであり、異なる身分の人々がこのプラットフォームの構築に参加できます。では、どのような人々が参加できるのでしょうか?
まず、各業界のベテラン従業員は申し込みを行い、その業界の分野の専門家になることができます。その責任の一つはデータの正確性を確保することであり、同時に知識グラフデータのラベリングタスクを合理的に分割し、プラットフォームに配布して、ユーザーがこれらの分野の知識グラフを共同で維持できるようにします。
次に、EpiKはバウンティハンターの役割を導入し、分野の専門家が特定の分野のタスクを完了するのを助けます。EpiKのバウンティハンターは、簡単な選択問題を解答するだけで済みます。例えば、YesまたはNoと答えることで、各回答は知識グラフの徐々に改善されることを意味します。タスクを完了した後、バウンティハンターは分野の専門家が配分した報酬を得ます。現在の計算によれば、時給36元以上です。EpiKは、より多くの人々を動員し、断片的な時間を利用してパートタイムで参加できるようにし、同時に三四線都市の新たな雇用機会を促進したいと考えています。
さらに、マイナーとして参加することもできます。相応のストレージスペースを提供するだけでデータマイナーになれます。豊富な報酬を得ると同時に、人類の永遠の知識庫に貢献することもできます。
また、データの現金化も可能です。ここには二つの側面があります。一つはデータゲートウェイであり、チェーン上のデータが増えるにつれて、参加者はチェーン上のデータに対して知識の集約を行い、便利なアクセスサービスを提供することで相応の補償と利益を得ることができます。もう一つの側面は、アプリケーション側との接続であり、企業が高額なデータベース構築コストを削減するのを助けることができます。
五、最後に言いたいこと
この記事では、EpiKの非中央集権的知識グラフオープン協力プラットフォームの三重構築論理について説明しました。この基盤の上に、EpiKの知識グラフライブラリは人工知能の未来の発展における重要な基石となり、未来のスマートアプリケーションの実現に重要なデータ支援を提供し、データ価値の持続的なアップグレードを促進します。
EpiKオープンソース知識運動は、炭素ベースの生命からシリコンベースの生命への50年にわたる壮大な布教を開始し、AIの未来への道が輝いています。