チップからデータへ:AIの次の戦い

おすすめの読書
2025-01-23 12:27:50
コレクション
本文では、データプールの縮小と、分散型AI(DeAI)がこの課題を解決する上でどのように重要な役割を果たすかについて探討します。

著者:OORT創設者、コロンビア大学教授の李崇博士(Max Li)

世界が依然としてAIチップを巡る戦争、すなわち関税、知的財産権の制限、サプライチェーンの制裁、地政学的争いに焦点を当てている中で、AIの未来の発展を直接左右するデータの枯渇問題は明らかに見落とされています。

今年初め、イーロン・マスクはAI企業がモデルの訓練に必要なデータを使い果たし、さらには「人類の知識の総和」をも「使い果たした」と鋭く指摘しました。

この記事では、データプールの縮小と、去中心化AI(DeAI)がこの課題を解決する上でどのように重要な役割を果たすかを探ります。

データの戦争が到来

まず明確にすべきことは、データは無限にあるわけではないということです。

データの戦争にはすでに前兆がありました:2023年、視覚芸術家のグループがStability AI、MidJourney、DeviantArtに対して、彼らの作品を無許可で生成AIモデル(Stable Diffusionなど)の訓練に使用したとして画期的な訴訟を提起しました。同時に、マスクはOpenAIなどの企業が無許可でTwitter(現在のXプラットフォーム)のデータを「スクレイピング」していると非難し、XプラットフォームはAPIの価格設定とアクセス制限を厳しくしました。

偶然にも、RedditはAPIの価格を大幅に引き上げ、Redditのユーザー生成コンテンツに依存してAIモデルを訓練しているOpenAIやAnthropicなどの企業に混乱をもたらしました。Redditはこの決定をデータの貨幣化の一環と見なしましたが、ユーザーデータプラットフォームとこれらのデータを使用しようとするAI企業との間の緊張関係についての議論も引き起こしました。

これらの出来事は、合法的かつ倫理的に利用可能なデータが枯渇しているという現実をますます明らかにしています。

データの複数の戦線

チップ戦争は最も強力なハードウェアの生産に焦点を当てているのに対し、データ戦争はAIを訓練するための適切なデータセットを取得することにあります。倫理的で高品質なデータの不足は、多くの企業のAI発展のボトルネックとなっています。

大企業にとって、最も実行可能な方法は中央集権的な巨人からデータを取得することですが、コストが高くつきます。しかし、小規模企業は限られた選択肢しか持たず、通常はそれを負担することができません。適切なデータ収集の方法やチャネルがないため、これらの企業は今後のAI発展と革新の競争で大幅に遅れをとることになります。

では、私たちはどのように倫理的かつ効果的にAI開発に必要なデータを収集すればよいのでしょうか?

データ戦争は複数の前線で展開され、それぞれが独自の課題と機会をもたらします。

データ収集

誰がデータ収集のパイプラインを掌握しているのか?どのように倫理的かつ合法的に行うのか?

テクノロジー大手に対する訴訟が不正なデータのスクレイピングや使用により山積みになる中、新たな取り組みも始まっています。例えば、ハーバード大学はユーザーの同意を得たデータの提供を推進し、一般にオープンアクセスのデータセットを提供しています。このようなプロジェクトには価値がありますが、商業的なAIアプリケーションのニーズを満たすには遠く及びません。

合成データも徐々に潜在的な解決策として注目されています。MetaやMicrosoftなどの企業は、AIを利用してデータを生成し、LlamaやPhi-4などのモデルを微調整しています。GoogleやOpenAIも作業に合成データを取り入れています。しかし、合成データもモデルの「幻覚」問題などの課題に直面しており、これがその正確性や信頼性に影響を与える可能性があります。

去中心化されたデータ収集は、別の有望な選択肢を提供します。ブロックチェーン技術を利用し、暗号通貨を用いて個人が安全にデータを共有することを促進することで、去中心化モデルはプライバシー、所有権、品質の問題を解決できます。これらの解決策はデータアクセスを民主化し、小規模企業がAIエコシステムで競争できるようにします。

データの品質

低品質のデータはモデルの偏りや不正確な予測を引き起こし、最終的にはAIシステムへの不信を招きます。AI訓練に使用されるデータが正確で代表的であることをどのように確保するのでしょうか?

業界の一般的な実践には以下が含まれます:

  • 厳格なデータ検証:企業は高度な検証技術を用いてデータセット内のエラー、不整合、ノイズをフィルタリングします。これには通常、人工監視、自動化プロセス、またはその両方を組み合わせてデータの完全性を検証することが含まれます。
  • 偏り緩和戦略:データが代表的であることを確保するために、企業は偏り検出ツールや多様なサンプリング技術を実施します。例えば、医療分野では、データセットは異なる人口群を含む必要があり、診断モデルに影響を与える可能性のある偏りを避ける必要があります。
  • 基準の遵守:ISO/IEC 27001などのデータセキュリティ業界フレームワークや他の新興倫理AIガイドラインは、データの品質と国際基準の遵守を確保するための必要条件となっています。
  • クラウドソーシングによる品質チェック:Amazon Mechanical Turkなどのプラットフォームがデータのラベリングや検証などのタスクに使用されています。コストは低いですが、これらの方法は一貫性と正確性を確保するために監視が必要です。
  • 去中心化検証:ブロックチェーンや去中心化システムは、データソースの認証、データの真実性の確保、改ざん防止のツールとして徐々に重要性を増しています。

さらに、各国の規制当局は、個人の権利と技術革新のバランスを取りながら、敏感なデータをサイバー脅威、外国の利用、敵対的な実体の濫用から保護するなどの重要な国家安全保障問題に対処するための包括的なデータプライバシーとセキュリティ規則を確立するという緊急の課題に直面しています。

前途多難

データ戦争の影響は深遠です。例えば、医療業界では、高品質な患者データの取得が診断や治療計画を根本的に変える可能性がありますが、厳格なプライバシー規制が障害となります。同様に、音楽業界では、倫理的なデータセットを使用して訓練されたAIモデルが作曲から著作権の執行に至るまでのすべてを変える可能性がありますが、知的財産権を尊重する必要があります。

これらの課題は、データの透明性、品質、アクセス可能性を優先する去中心化ソリューションの重要性を浮き彫りにしています。去中心化システムを利用することで、個人が自分のデータに対するコントロールを保持し、企業が倫理的かつ高品質なデータセットにアクセスでき、プライバシーやセキュリティを損なうことなく革新を推進できる、より公平なデータエコシステムを創造することができます。

チップ戦争からデータ戦争への移行は、AIエコシステムとその進化のプロセスを再構築し、去中心化データソリューションに先駆けた機会を提供します。倫理的なデータ収集とアクセス可能性を優先することで、去中心化AIはギャップを埋め、より公平で革新的なAIの未来を導く可能性を秘めています。

最良のデータを巡る戦いはすでに始まっています。私たちはその準備ができているのでしょうか?

ChainCatcherは、広大な読者の皆様に対し、ブロックチェーンを理性的に見るよう呼びかけ、リスク意識を向上させ、各種仮想トークンの発行や投機に注意することを提唱します。当サイト内の全てのコンテンツは市場情報や関係者の見解であり、何らかの投資助言として扱われるものではありません。万が一不適切な内容が含まれていた場合は「通報」することができます。私たちは迅速に対処いたします。
チェーンキャッチャー イノベーターとともにWeb3の世界を構築する