Claude3のリリース、GPT-4を全面的に超える可能性は？

フォーサイトニュース

2024-03-05 16:42:16

コレクション

先ほど、AnthropicはClaude3モデルシリーズを発表しました。このシリーズは、幅広い認知タスクにおいて新しい業界基準を確立しました。

共有する

WeChatでQRコードをスキャン

執筆：有新

先ほど、AnthropicはClaude 3モデルシリーズを発表しました。このシリーズは、幅広い認知タスクにおいて新しい業界基準を確立しました。このシリーズには、能力が増加する順に配置された3つの最先端モデルが含まれています：Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。各モデルは、ユーザーが特定のアプリケーションに最適な知能、速度、コストのバランスを選択できるように、ますます強力な性能を提供します。

OpusとSonnetは現在、claude.aiおよびClaude APIで利用可能で、後者は現在159か国で全面的に提供されています。Haikuは近日中にリリースされる予定です。

Claude 3 モデルシリーズ

知能の新基準

Opusは、Anthropicの最も知能の高いモデルであり、ほとんどの一般的なAIシステム評価基準で優れたパフォーマンスを示しています。これには、学部レベルの専門知識（MMLU）、大学院レベルの専門的推論（GPQA）、基本的な数学（GSM8K）などが含まれます。複雑なタスクにおいては、人間レベルの理解と流暢さを示し、汎用知能の最前線をリードしています。

すべてのClaude 3モデルは、分析と予測、詳細なコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの非英語言語での対話において、強化された能力を示しています。

以下は、Claude 3モデルとAnthropicの他のモデルとの複数の能力基準[1]における比較です：

ほぼ瞬時の結果

Claude 3モデルは、即時の顧客チャット、自動補完、データ抽出タスクをサポートでき、応答は即時かつリアルタイムである必要があります。

その知能カテゴリの中で、Haikuは市場で最も速く、コストパフォーマンスが高いモデルです。情報密度の高いarXiv研究論文（約10kトークン）を3秒未満で読むことができます。リリースに伴い、Anthropicはパフォーマンスがさらに向上することを期待しています。

ほとんどのワークロードにおいて、SonnetはClaude 2およびClaude 2.1よりも2倍以上速く、より高いレベルの知能を持っています。知識検索や営業自動化など、迅速な応答が求められるタスクに優れています。Opusの速度はClaude 2および2.1と同様ですが、より高いレベルの知能を持っています。

強力な視覚能力

Claude 3モデルは、他の先進的なモデルと同等の複雑な視覚能力を持っています。写真、グラフ、図、技術図表など、さまざまな視覚フォーマットを処理できます。Anthropicは、この新しいモダリティを企業顧客に特に提供することに興奮しています。これらの顧客の知識ベースの中には、さまざまなフォーマットでエンコードされたコンテンツが最大50%含まれています（例：PDF、フローチャート、プレゼンテーションスライド）。

拒否の減少

以前のClaudeモデルは、文脈理解の欠如を示す不必要な拒否をしばしば行っていました。この点で、Anthropicは実質的な進展を遂げました：Opus、Sonnet、Haikuは、システムの警戒線に近いプロンプトに対して回答を拒否する可能性が明らかに低下し、以前のモデルよりも少なくなっています。以下の図に示すように、Claude 3モデルはリクエストに対してより詳細な理解を示し、真の危険を識別し、無害なプロンプトに対する回答拒否の頻度が明らかに減少しています。

向上した正確性

さまざまな規模の企業は、顧客サービスのためにAnthropicのモデルに依存しており、これによりAnthropicのモデル出力が高い正確性を維持することが重要です。これを評価するために、Anthropicは現在のモデルの既知の弱点に対して、大量の複雑な事実ベースの質問を使用しました。Anthropicは、応答を正しい答え、誤った答え（または幻覚）、および不確実性の認識に分類しました。ここでモデルは、誤った情報を提供するのではなく、答えがわからないことを示します。Claude 2.1と比較して、Opusはこれらの挑戦的なオープンエンドの質問に対する正確性（または正しい答え）を2倍に向上させ、誤った答えのレベルを減少させました。

より信頼できる応答を生成するだけでなく、AnthropicはすぐにAnthropicのClaude 3モデルに引用機能を有効にし、正確な文を参照資料に指し示してその答えを検証できるようにします。

長い文脈とほぼ完璧なリコール

Claude 3シリーズモデルは、リリース時に20万トークンの文脈ウィンドウを提供します。しかし、すべてのモデルは100万トークンを超える入力を受け入れることができ、Anthropicは特定の顧客に対してこの機能を提供する可能性があります。

長い文脈プロンプトを効果的に処理するためには、強力なリコール能力が必要です。「Needle In A Haystack」（NIAH）評価は、モデルが大量のデータコーパスから情報を正確にリコールする能力を測定します。Anthropicは、各プロンプトに対して30のランダムな針/質問ペアの1つを使用し、多様なクラウドソーシングコーパス文書でテストすることで、この基準の堅牢性を強化しました。

Claude 3 Opusは、99%以上の正確性を超えるほぼ完璧なリコールを達成し、特定の状況では「針」文を識別することで評価自体の限界を認識することさえあります。

責任ある設計

Anthropicは、Claude 3シリーズモデルを開発し、能力と同時に信頼性を備えています。Anthropicには、誤情報やCSAMから生物的悪用、選挙干渉、自律的複製スキルまで、さまざまなリスクを追跡し軽減するための専門チームがいくつかあります。Anthropicは、「憲法AI」などの方法を継続的に開発し、Anthropicモデルの安全性と透明性を向上させ、新しいモダリティによって引き起こされる可能性のあるプライバシーの問題を軽減するためにモデルを調整しています。

ますます複雑なモデルにおける偏見の解決は継続的な努力であり、Anthropicはこの新しいバージョンで進展を遂げました。モデルカードに示されているように、質問応答の偏見基準（BBQ）に基づいて、Claude 3はAnthropicの以前のモデルよりも少ない偏見を示しています。Anthropicは、偏見を減少させ、モデルの中立性を高める技術の推進に常に取り組んでおり、特定の政党に偏らないようにしています。

以前のモデルと比較して、Claude 3モデルシリーズは生物知識、ネット関連知識、自律性の面で進歩を遂げていますが、Anthropicの責任ある拡張ポリシーに基づき、依然としてAI安全レベル2（ASL-2）に位置しています。Anthropicのレッドチーム評価（Anthropicのホワイトハウスへのコミットメントおよび2023年の米国行政命令に一致して行われた）は、現在のモデルが壊滅的リスクの潜在性を無視できるほど低いと結論付けています。Anthropicは、将来のモデルを注意深く監視し、ASL-3の閾値にどれだけ近づいているかを評価し続けます。Claude 3モデルカードには、さらなる安全性の詳細が提供されています。

より使いやすい

Claude 3モデルは、複雑な多段階の指示に従う能力が向上しています。特にブランドの声や応答ガイドラインに従うことに優れ、ユーザーが信頼できる顧客向け体験を開発します。さらに、Claude 3モデルは、自然言語分類や感情分析などのユースケースに対して、Claudeをより簡単に指導できるように、JSON形式などの人気のある構造化出力を生成する能力が向上しています。

モデルの詳細

Claude 3 Opusは、Anthropicの最も知能の高いモデルであり、高度に複雑なタスクにおいて市場最高のパフォーマンスを示します。オープンエンドのプロンプトや未見の状況で流暢に優れたパフォーマンスを発揮し、人間に似た理解能力を持っています。Opusは、生成AIが実現できる限界をAnthropicに示しました。

Claude 3 Sonnetは、知能と速度の理想的なバランスを実現しており、特に企業のワークロードに適しています。競合他社と比較して、低コストで強力なパフォーマンスを提供し、大規模AI展開の高耐久性を考慮して設計されています。

Claude 3 Haikuは、Anthropicで最も速く、最もコンパクトなモデルであり、ほぼ瞬時の応答を実現します。比類のない速度で簡単なクエリやリクエストに応答します。ユーザーは、人間のインタラクションを模倣したシームレスなAI体験を構築できるようになります。

モデルの可用性

OpusとSonnetは本日、AnthropicのAPIで利用可能で、現在広く利用されており、開発者はすぐに登録してこれらのモデルを使用開始できます。Haikuは近日中にリリースされる予定です。Sonnetはclaude.aiでの無料体験をサポートしており、OpusはClaude Proサブスクリプションユーザー向けに提供されています。

Sonnetは、AmazonのBedrockやGoogle CloudのVertex AIモデルガーデンを通じても利用可能であり、OpusとHaikuも近日中にリリースされる予定です。

より知能的で、より速く、より安全

Anthropicは、モデルの知能がまだ限界に達していないと考えており、今後数ヶ月の間にClaude 3モデルシリーズを頻繁に更新する計画です。Anthropicは、特に企業用ケースや大規模展開に向けて、Anthropicモデルの能力を強化するための一連の機能を発表できることを嬉しく思っています。これらの新機能には、ツールの使用（関数呼び出しとも呼ばれる）、インタラクティブコーディング（REPLとも呼ばれる）、およびより高度なエージェント機能などが含まれます。

フォーサイトニュース

Coinbaseのデータ漏洩事件の内幕：インドのカスタマーサポートセンターとティーンエイジャーハッカーグループ

暗号新周期のトップマネーゲッター：ビットコインホルダーが大勝利