遥遥领先の OpenAI が遅くなった。

コレクション
私たちがOpenAIを設立したとき、最初の考えは人工知能を創造し、それを利用して世界にさまざまな利益をもたらすことでした。逆に、今では私たちが人工知能を創造し、他の人々がそれを使ってさまざまな驚くべきものを生み出し、私たち全員が恩恵を受けることになるようです。

出品:虎嗅科技组

作者:齐健

编辑:王一鹏

"もし発表されるのがGPT-5であれば、OpenAIは依然として遥かに先を行っています。AI Searchや音声アシスタントであれば、OpenAIは衰退したことを示しています。"

あるAI大モデルの業界関係者は虎嗅に対し、業界がOpenAIに対して期待しすぎていると語った。GPT-5のような破壊的な革新でなければ、観客の「胃袋」を満たすのは難しいという。

Sam AltmanがOpenAIのオンラインライブ配信の前に、GPT-5(またはGPT-4.5)を発表しないと予告していたが、外部の期待はすでに高まっていた。

北京時間5月14日午前、OpenAIは最新のGPT-4oを発表した。oはOmnimodel(全能モデル)を意味する20分以上のデモライブでは、現在のすべての音声アシスタントを超えるAIインタラクション体験が示され、外部メディアが以前に伝えた情報とほぼ一致していた。

GPT-4oのデモ効果は「炸裂」と呼べるものであるが、業界関係者は一般的にAltmanが予告した「魔法」という言葉には相応しくないと考えている。多くの人が、これらの機能的な製品は「OpenAIの使命から逸脱している」と見なしている。

OpenAIのPRチームは、このような世論の動向を予測していたようだ。発表会の現場やその後にAltmanが公開したブログでは、次のように説明している:

"私たちの使命の重要な部分は、非常に強力な人工知能ツールを人々に無料(または割引価格で)提供することです。私は、ChatGPTで世界最高のモデルを広告や類似のものなしに無料で提供できたことを非常に誇りに思っています。

OpenAIを設立したとき、私たちの最初の考えは、人工知能を創造し、それを利用して世界にさまざまな利益をもたらすことでした。逆に、今では私たちが人工知能を創造し、他の人々がそれを使ってさまざまな驚くべきものを創造し、私たち全員が利益を得ることになるようです。"

遥かに先を行くGPT-4o

"もし私たちが'すべて'の返信を得るのに5秒待たなければならないなら、ユーザー体験は一気に悪化します。合成音声自体が非常にリアルに聞こえても、没入感を損ない、活気がないと感じさせます。"

OpenAIの発表会の前夜、NVIDIAのEmbodied AI責任者Jim FanはX上でOpenAIが発表する音声アシスタントを予測し、次のように提案した:

ほぼすべての音声AIは3つの段階を経る:

  1. 音声認識または「ASR」:音声->テキスト1、例えばWhisper;

  2. 次に何を言うかを計画するLLM:text1 -> text2;

  3. 音声合成または「TTS」:text2 ->音声、例えばElevenLabsやVALL-E。

3つの段階を経ることで、大きな遅延が生じます。

GPT-4oは応答速度の面で、遅延の問題をほぼ解決した。GPT-4oの応答音声入力の最短時間は232ミリ秒、平均応答時間は320ミリ秒で、ほぼ人間に似ている。GPT-4oを使用していないChatGPTの音声対話機能の平均遅延は2.8秒(GPT-3.5)および5.4秒(GPT-4)である。

GPT-4oは遅延を短縮することで体験を大幅に向上させただけでなく、GPT-4を基に多くのアップグレードを行った:

  • 優れたマルチモーダルインタラクション能力、音声、ビデオ、画面共有を含む。

  • 人間の表情、文字、数学公式をリアルタイムで認識し理解できる。

  • インタラクティブな音声は感情豊かで、声のトーンやスタイルを変えたり、模倣したり、さらには「即興」で歌ったりできる。

  • 超低遅延で、会話中にAIをリアルタイムで中断し、情報を追加したり新しい話題を始めたりできる。

  • すべてのChatGPTユーザーが無料で使用できる(使用制限あり)。

  • 速度はGPT-4 Turboの2倍で、APIコストは50%低く、速度制限は5倍高い。

"衰退"するOpenAI

"これらの限界の突破はすべて革新です。"

業界の専門家の中には、GPT-4oのマルチモーダル能力は「見た目が良い」だけで、実際にはOpenAIが視覚的なマルチモーダルにおいて本当に「突破」と呼べる機能を示していないと考える人もいる。

ここで、業界の慣習に従い、隣の企業AnthropicのClaude 3と比較してみよう。

Claude 3の技術文書には、「Claudeの画像理解能力は最先端であるが、いくつかの限界に注意が必要である」と記載されている。

その中には:

  • 人物認識:Claudeは画像内の人物を認識(つまり名前を付ける)することはできず、そのようなことを拒否する。

  • 正確性:Claudeは200ピクセル未満の低品質、回転したり非常に小さな画像を説明する際に、幻覚を引き起こしたり間違いを犯す可能性がある。

  • 空間推理:Claudeの空間推理能力は限られている。正確な位置決めや配置を必要とするタスク、例えば模擬時計の読み取りやチェスの駒の正確な位置の説明を行うのが難しい場合がある。

  • 数え上げ:Claudeは画像内の物体の近似的な数を示すことができるが、特に大量の小さな物体に対しては常に正確であるとは限らない。

  • AI生成の画像:Claudeは画像がAI生成であるかどうかを知らず、質問されると不正確な場合がある。偽の画像や合成画像を検出するために依存しないでください。

  • 不適切なコンテンツ:Claudeは、私たちの受け入れ可能な使用ポリシーに違反する不適切または露骨な画像を処理しない。

  • 医療関連のアプリケーション:Claudeは一般的な医学画像を分析できるが、CTやMRIなどの複雑な診断スキャンを解釈するために設計されていない。Claudeの出力は専門的な医療アドバイスや診断の代替品として見なされるべきではない。

GPT-4oのウェブサイトで発表されたケースの中には、「空間推理」に関連する能力がいくつかあるが、依然として突破とは言えない。

さらに、発表会の現場でのGPT-4oの出力内容からは、そのモデル能力がGPT-4と大差ないことが容易にわかる。

GPT-4oのスコア

モデルは会話中にトーンを追加したり、即興で歌ったりできるが、会話の内容は依然としてGPT-4と同様に詳細や創造性に欠けている。

また、発表会後にOpenAIの公式サイトでもGPT-4oの一連のアプリケーションケースの探索が発表された。これには、写真を漫画スタイルに変換すること、会議の記録、画像合成、画像に基づく3Dコンテンツ生成、手書き、草稿生成、スタイライズされたポスターや漫画生成、アートフォント生成などが含まれる。

これらの能力の中で、写真を漫画スタイルに変換することや会議の記録なども、見た目には普通の文生図やAI大モデルの機能に過ぎない。

既存のビジネスモデルに挑戦できるか?

"5つの無料ChatGPTアカウントを登録すれば、毎月20ドルのChatGPT Plusを購読する必要はなくなるのか?"

OpenAIが発表したGPT-4oの使用ポリシーは、ChatGPT Plusユーザーのトラフィック制限が通常ユーザーの5倍高いことを示している。

GPT-4oはすべての人に無料で提供され、最初に挑戦するのはOpenAI自身のビジネスモデルのようだ。

第三者市場分析プラットフォームSensor Towerが発表したデータによると、過去1か月間にChatGPTは世界のApp Storeで700万回ダウンロードされ、サブスクリプション収入は1200万ドル;世界のGoogle Play市場では9000万回ダウンロードされ、サブスクリプション収入は300万ドルである。

現在、ChatGPT Plusの2つのアプリストアでのサブスクリプション価格は19.99ドルである。サブスクリプションデータから推測すると、ChatGPT Plusは過去1か月間にアプリストアで75万人の有料サブスクリプションユーザーを持っている。ChatGPT Plusには多くの直接的な有料ユーザーもいるが、スマートフォンからの収入を見ると、年間の収入は2億ドルにも満たず、数倍に増やしてもOpenAIの近千億の評価を支えるのは難しい。

このように見ると、OpenAIは個人ユーザーの課金についてあまり考慮する必要がない。

さらに、GPT-4oは体験を重視しているため、AIとの会話中に接続が切れ、アカウントを切り替えて再度話す必要がある場合、あなたは怒って課金することになるだろうか?

"最初のChatGPTは言語インターフェースの可能性を示唆していた;この新しいものは本質的に異なる感覚を与える。迅速で、知的で、面白く、自然で役立つ。"

Sam Altmanの最新のブログでは「言語インターフェースの可能性」が言及されており、これはGPT-4oが今後挑戦する可能性のあること:すべてのGUI(グラフィカルユーザーインターフェース)やLUI(音声インターフェース)で力を入れようとしている人々に挑戦することだ。

最近の外部メディアからのOpenAIとAppleの協力に関する情報を考慮すると、GPT-4oはすぐにすべてのAI PCやAIスマートフォンのメーカーに「オリーブの枝」を差し出すか、「テーブルをひっくり返す」可能性がある。

どのような音声アシスタントやAI大モデルであっても、AIPCやAIスマートフォンにとっての核心的価値は体験の最適化であり、GPT-4oはその体験を極限まで最適化した。

GPT-4oはすべての既知のアプリやSaaS業界に波及する可能性が高い。過去1年以上の間に、市場で開発されたすべてのAIエージェントは脅威にさらされるだろう。

あるリソース集約型アプリのプロダクトマネージャーは虎嗅に対し、「私の操作フローが製品の核心であり、あなたのChatGPTによってその操作フローが最適化されれば、私のアプリは価値がなくなる」と述べた。

想像してみてください、もし出前のアプリのUIが「私に食事を注文して」と一言になったら、美団を開くのも、饿了么を開くのも、ユーザーにとっては同じことです。

メーカーの次のステップは、サプライチェーンやエコシステムの利益空間を圧縮し、さらには悪性の価格戦争を引き起こすしかない。

現在の状況から見ると、他のメーカーがOpenAIのモデル能力を打ち負かすには、まだ時間がかかるだろう。

製品がOpenAIに対抗するには、より「安価な」モデルを作るしかないかもしれない。

国内産業への影響

"最近忙しすぎて、彼らに注目する余裕がなかった。"

ある産業AI大モデルの創業者は虎嗅に対し、最近は戦略的な協力、製品発表、顧客との交流、資本交流に忙しく、OpenAIの発表に注目する時間がまったくなかったと語った。

OpenAIの発表前に、虎嗅はさまざまな業界の国内AI関係者に尋ねたが、彼らのOpenAIの最新発表に対する予測と見解は非常に一致していた:非常に期待しているが、私には関係ない。

ある関係者は、国内の現状から見ると、短期間でOpenAIに追いつくのは現実的ではないと述べた。したがって、OpenAIが何を発表したかに関心を持つのは、最新の技術方向を見てみる程度だ。

現在、国内企業はAI大モデルの研究開発において、一般的にエンジニアリングや垂直モデルに注目しており、これらは比較的実用的で収益化しやすい方向性である。

エンジニアリングの面では、最近急成長しているDeepseekが国内大モデル業界でTokenの価格戦争を引き起こしている。垂直モデルの面では、複数の業界関係者が虎嗅に対し、短期間で小モデルや垂直モデルの研究開発は、OpenAIの影響を受けることはほとんどないと述べた。

"時にはOpenAIの技術方向もあまり参考にならない。"とあるモデル専門家は虎嗅に対し、Soraは良い例であり、2024年2月にOpenAIが動画モデルSoraを発表し、60秒の動画安定出力を実現した。見た目には効果が良さそうだが、その後の実践はほとんどなく、実用化の速度も非常に遅い。

Soraの前に、国内の多くの文生動画分野で活躍している企業や機関はすでに15秒の安定した動画生成を実現しており、Soraが登場した後、一部の企業の研究開発、資金調達、製品のペースが乱され、文生動画業界全体の発展が「技術の大躍進」に変わってしまった。

幸いにも、今回のGPT-4oはSoraとは大きく異なる。OpenAIのCTO Muri Muratiは、今後数週間で私たちの反復的な展開を続け、すべての機能を提供すると述べている。

発表会が終わって間もなく、GPT-4oはすでにオンラインで試用できるようになった。

ChainCatcherは、広大な読者の皆様に対し、ブロックチェーンを理性的に見るよう呼びかけ、リスク意識を向上させ、各種仮想トークンの発行や投機に注意することを提唱します。当サイト内の全てのコンテンツは市場情報や関係者の見解であり、何らかの投資助言として扱われるものではありません。万が一不適切な内容が含まれていた場合は「通報」することができます。私たちは迅速に対処いたします。
banner
チェーンキャッチャー イノベーターとともにWeb3の世界を構築する