GPT-4

OpenAI 업데이트 발표: 실시간 오디오, 비주얼 및 텍스트 추론 구현

ChainCatcher 메시지에 따르면, Cointelegraph는 OpenAI가 10월에 모델에 대해 네 가지 업데이트를 진행하여 AI 모델이 대화를 더 잘하고 이미지 인식 능력을 향상시켰다고 보도했습니다. 첫 번째 주요 업데이트는 실시간 API로, 개발자가 단일 프롬프트를 사용하여 AI 생성 음성 애플리케이션을 만들 수 있게 하여 ChatGPT 고급 음성 모드와 유사한 자연스러운 대화를 구현할 수 있습니다. 이전에는 개발자가 이러한 경험을 만들기 위해 여러 모델을 "조합"해야 했습니다. 오디오 입력은 일반적으로 응답을 받기 전에 완전히 업로드되고 처리되어야 하므로 음성 간 대화와 같은 실시간 애플리케이션의 지연이 높았습니다. Realtime API의 스트리밍 기능 덕분에 개발자는 이제 음성 비서처럼 즉각적이고 자연스러운 상호작용을 구현할 수 있습니다. 이 API는 2024년 5월에 출시될 GPT-4에서 실행되며, 오디오, 비주얼 및 텍스트를 실시간으로 추론할 수 있습니다.또 다른 업데이트는 개발자에게 제공되는 미세 조정 도구로, 이 도구를 통해 이미지와 텍스트 입력에서 생성된 AI 응답을 개선할 수 있습니다. 이미지 기반 미세 조정기는 AI가 이미지를 더 잘 이해할 수 있도록 하여 시각적 검색 및 물체 감지 능력을 향상시킵니다. 이 과정에는 인간의 피드백이 포함되며, 이들은 훈련을 위해 좋은 반응과 나쁜 반응의 예를 제공합니다.음성과 비주얼 업데이트 외에도 OpenAI는 "모델 증류"와 "프롬프트 캐시"를 출시하여 더 작은 모델이 더 큰 모델로부터 학습하고 처리된 텍스트를 재사용하여 개발 비용과 시간을 줄일 수 있도록 합니다. 로이터에 따르면, OpenAI는 내년 수익이 116억 달러로 증가할 것으로 예상하며, 이는 2024년 예상 수익 37억 달러를 초과하는 수치입니다.

OpenAI 로드맵: GPT-4 API 비용을 낮추고 있으며, GPT-3 오픈소스를 고려 중입니다

ChainCatcher 메시지에 따르면, AI 개발 플랫폼 HumanLoop 블로그에서 OpenAI CEO Sam Altman은 비공식 세미나에서 OpenAI가 현재 GPU에 심각하게 제한되어 있어 많은 단기 계획이 지연되고 있으며, ChatGPT의 신뢰성과 속도에 대한 대부분의 문제는 GPU 자원 부족으로 인해 발생한다고 밝혔습니다.Sam Altman은 또한 OpenAI의 최근 로드맵을 공유했습니다: 2023년에는 GPT-4 API 비용을 낮출 것이며; 더 긴 ChatGPT 컨텍스트 윈도우(최대 100만 개 토큰)가 제공될 것이고, 미래에는 대화 기록을 기억하는 API 버전이 나올 것입니다; GPT-4의 다중 모달 기능은 2024년에 공개될 예정이며, 더 많은 GPU 자원을 확보하기 전에는 GPT-4의 비주얼 버전을 모든 사람에게 확장할 수 없습니다.또한, OpenAI는 GPT-3의 오픈 소스를 고려하고 있으며, 그들이 아직 오픈 소스를 하지 않은 부분적인 이유는 많은 사람과 회사가 이렇게 큰 대형 언어 모델을 적절히 관리할 능력이 없다고 생각하기 때문입니다. 최근 많은 기사에서 주장하는 "거대 AI 모델의 시대는 끝났다"는 잘못된 정보이며, OpenAI 내부 데이터에 따르면 규모와 성능이 비례한다는 법칙은 여전히 유효하며, OpenAI의 모델 규모는 매년 두 배 또는 세 배로 증가할 수 있습니다(다양한 정보에 따르면 GPT-4의 파라미터 규모는 10000억입니다), 많은 수량급으로 증가하는 것이 아닙니다.(출처 링크)
체인캐처 혁신가들과 함께하는 Web3 세상 구축