OpenAIが更新を発表：リアルタイムで音声、視覚、テキストの推論を実現

2024-10-02 20:01:31

コレクション

共有する

ChainCatcher のメッセージによると、Cointelegraph の報道では、OpenAI は 10 月にそのモデルに対して 4 つの更新を行い、AI モデルの対話能力を向上させ、画像認識能力を強化しました。最初の大きな更新はリアルタイム API で、これにより開発者は単一のプロンプトを使用して AI 生成の音声アプリケーションを作成し、ChatGPT の高度な音声モードに似た自然な対話を実現できます。以前は、開発者はこれらの体験を作成するために複数のモデルを「つなぎ合わせる」必要がありました。音声入力は通常、応答を受け取る前に完全にアップロードおよび処理される必要があり、これにより音声同士の対話などのリアルタイムアプリケーションの遅延が高くなります。Realtime API のストリーミング機能を利用することで、開発者は今や音声アシスタントのように即時で自然なインタラクションを実現できます。この API は 2024 年 5 月にリリースされる GPT-4 上で動作し、音声、視覚、テキストをリアルタイムで推論できます。

別の更新には、開発者向けの微調整ツールが含まれており、これにより彼らは画像やテキスト入力から生成された AI 応答を改善することができます。画像ベースの微調整ツールは、AI が画像をよりよく理解できるようにし、視覚検索や物体検出能力を強化します。このプロセスには、人間からのフィードバックが含まれ、彼らは良い反応と悪い反応の例を提供してトレーニングを行います。

音声と視覚の更新に加えて、OpenAI は「モデル蒸留」と「プロンプトキャッシュ」を導入し、より小さなモデルがより大きなモデルから学び、処理済みのテキストを再利用することで開発コストと時間を削減できるようにしました。ロイターの報道によれば、OpenAI は来年の収益が 116 億ドルに増加すると予想しており、2024 年の予想 37 億ドルを上回る見込みです。

(ソースリンク)