GPT-4

OpenAIが更新を発表:リアルタイムで音声、視覚、テキストの推論を実現

ChainCatcher のメッセージによると、Cointelegraph の報道では、OpenAI は 10 月にそのモデルに対して 4 つの更新を行い、AI モデルの対話能力を向上させ、画像認識能力を強化しました。最初の大きな更新はリアルタイム API で、これにより開発者は単一のプロンプトを使用して AI 生成の音声アプリケーションを作成し、ChatGPT の高度な音声モードに似た自然な対話を実現できます。以前は、開発者はこれらの体験を作成するために複数のモデルを「つなぎ合わせる」必要がありました。音声入力は通常、応答を受け取る前に完全にアップロードおよび処理される必要があり、これにより音声同士の対話などのリアルタイムアプリケーションの遅延が高くなります。Realtime API のストリーミング機能を利用することで、開発者は今や音声アシスタントのように即時で自然なインタラクションを実現できます。この API は 2024 年 5 月にリリースされる GPT-4 上で動作し、音声、視覚、テキストをリアルタイムで推論できます。別の更新には、開発者向けの微調整ツールが含まれており、これにより彼らは画像やテキスト入力から生成された AI 応答を改善することができます。画像ベースの微調整ツールは、AI が画像をよりよく理解できるようにし、視覚検索や物体検出能力を強化します。このプロセスには、人間からのフィードバックが含まれ、彼らは良い反応と悪い反応の例を提供してトレーニングを行います。音声と視覚の更新に加えて、OpenAI は「モデル蒸留」と「プロンプトキャッシュ」を導入し、より小さなモデルがより大きなモデルから学び、処理済みのテキストを再利用することで開発コストと時間を削減できるようにしました。ロイターの報道によれば、OpenAI は来年の収益が 116 億ドルに増加すると予想しており、2024 年の予想 37 億ドルを上回る見込みです。

OpenAIのロードマップ:GPT-4 APIのコストを引き下げる予定で、GPT-3のオープンソース化を検討中です。

ChainCatcher のメッセージによると、AI 開発プラットフォーム HumanLoop のブログ記事で、OpenAI の CEO サム・アルトマンは、あるクローズドセミナーで、OpenAI は現在 GPU に深刻に制約されており、そのため多くの短期計画が遅れていると述べました。ChatGPT の信頼性と速度に関する問題の大部分は、GPU リソースの不足によるものです。サム・アルトマンはまた、OpenAI の最近のロードマップを共有しました:2023 年には GPT-4 API のコストを削減する予定です;より長い ChatGPT のコンテキストウィンドウ(最大 100 万トークン)、将来的には会話の履歴を記憶する API バージョンが登場します;GPT-4 のマルチモーダル機能は 2024 年まで公開されず、より多くの GPU リソースを取得する前に GPT-4 のビジュアルバージョンをすべての人に拡張することはできません。さらに、OpenAI は GPT-3 のオープンソース化を検討していますが、彼らがまだオープンソース化していない理由の一部は、あまりにも多くの人や企業がこのような大規模な大言語モデルを適切に管理できる能力を持っていないと感じているからです。「巨大 AI モデルの時代は終わった」という最近の多くの記事は正しくなく、OpenAI の内部データは、規模と性能が比例する法則が依然として成り立つことを示しています。OpenAI のモデルの規模は毎年倍増または三倍になる可能性があり(多くの情報が GPT-4 のパラメータ規模は 10000 億であることを示しています)、数桁増加するのではありません。(出典リンク)
チェーンキャッチャー イノベーターとともにWeb3の世界を構築する