OpenAI 업데이트 발표: 실시간 오디오, 비주얼 및 텍스트 추론 구현

2024-10-02 20:01:31

수집

ChainCatcher 메시지에 따르면, Cointelegraph는 OpenAI가 10월에 모델에 대해 네 가지 업데이트를 진행하여 AI 모델이 대화를 더 잘하고 이미지 인식 능력을 향상시켰다고 보도했습니다. 첫 번째 주요 업데이트는 실시간 API로, 개발자가 단일 프롬프트를 사용하여 AI 생성 음성 애플리케이션을 만들 수 있게 하여 ChatGPT 고급 음성 모드와 유사한 자연스러운 대화를 구현할 수 있습니다. 이전에는 개발자가 이러한 경험을 만들기 위해 여러 모델을 "조합"해야 했습니다. 오디오 입력은 일반적으로 응답을 받기 전에 완전히 업로드되고 처리되어야 하므로 음성 간 대화와 같은 실시간 애플리케이션의 지연이 높았습니다. Realtime API의 스트리밍 기능 덕분에 개발자는 이제 음성 비서처럼 즉각적이고 자연스러운 상호작용을 구현할 수 있습니다. 이 API는 2024년 5월에 출시될 GPT-4에서 실행되며, 오디오, 비주얼 및 텍스트를 실시간으로 추론할 수 있습니다.

또 다른 업데이트는 개발자에게 제공되는 미세 조정 도구로, 이 도구를 통해 이미지와 텍스트 입력에서 생성된 AI 응답을 개선할 수 있습니다. 이미지 기반 미세 조정기는 AI가 이미지를 더 잘 이해할 수 있도록 하여 시각적 검색 및 물체 감지 능력을 향상시킵니다. 이 과정에는 인간의 피드백이 포함되며, 이들은 훈련을 위해 좋은 반응과 나쁜 반응의 예를 제공합니다.

음성과 비주얼 업데이트 외에도 OpenAI는 "모델 증류"와 "프롬프트 캐시"를 출시하여 더 작은 모델이 더 큰 모델로부터 학습하고 처리된 텍스트를 재사용하여 개발 비용과 시간을 줄일 수 있도록 합니다. 로이터에 따르면, OpenAI는 내년 수익이 116억 달러로 증가할 것으로 예상하며, 이는 2024년 예상 수익 37억 달러를 초과하는 수치입니다.

(출처 링크)