OpenAI 전천후 모델 GPT-4o 실시간 상호작용으로 모든 이들을 놀라게 하며, SF 시대가 도래했다

추천 읽기

2024-05-14 09:58:22

수집

ChatGPT가 세상에 나온 지 17개월 만에 OpenAI는 SF 영화 속의 슈퍼 AI를 선보였고, 완전히 무료로 모든 사람이 사용할 수 있게 되었다.

위챗으로 스캔하기

원제목：《 OpenAI가 세상을 뒤흔들다: GPT-4o 완전 무료, 실시간 음성 비디오 상호작용으로 모든 것을 놀라게 하다, 직접 SF 시대에 진입》

저자: 머신즈신

출처: TechFlow 심조

너무 놀랍습니다!

각종 기술 회사들이 대형 모델의 다중 모드 능력을 쫓고, 텍스트 요약, 이미지 편집 등의 기능을 스마트폰에 넣고 있을 때, 한 발 앞서 나간 OpenAI가 직접 대규모 발표를 하며 자사의 CEO인 샘 올트먼조차 감탄하게 만든 제품을 출시했습니다: 마치 영화 속 장면처럼.

5월 14일 새벽, OpenAI는 첫 번째 "봄 신제품 발표회"에서 차세대 플래그십 생성 모델 GPT-4o와 데스크탑 앱을 공개하며 일련의 새로운 능력을 시연했습니다. 이번에는 기술이 제품 형태를 혁신하며, OpenAI가 전 세계 기술 회사들에게 교훈을 주었습니다.

오늘의 진행자는 OpenAI의 최고 기술 책임자 미라 무라티(Mira Murati)로, 그녀는 오늘 세 가지 주요 사항을 이야기했습니다:

첫째, 앞으로 OpenAI는 제품을 무료로 제공하여 더 많은 사람들이 사용할 수 있도록 할 것입니다.
둘째, 따라서 OpenAI는 이번에 데스크탑 버전의 프로그램과 업데이트된 UI를 발표했으며, 사용하기 더 간편하고 자연스러워졌습니다.
셋째, GPT-4 이후 새로운 버전의 대형 모델이 등장했으며, 이름은 GPT-4o입니다. GPT-4o의 특별한 점은 매우 자연스러운 상호작용 방식으로 모든 사용자에게 GPT-4 수준의 지능을 제공한다는 것입니다. 무료 사용자도 포함됩니다.

ChatGPT의 이번 업데이트 이후, 대형 모델은 텍스트, 오디오 및 이미지의 임의 조합을 입력으로 받아 실시간으로 텍스트, 오디오 및 이미지의 임의 조합 출력을 생성할 수 있습니다 ------ 이것이 바로 미래의 상호작용 방식입니다.

최근 ChatGPT는 등록 없이도 사용할 수 있게 되었고, 오늘은 데스크탑 프로그램도 추가되었습니다. OpenAI의 목표는 사람들이 언제 어디서나 자연스럽게 사용할 수 있도록 하여 ChatGPT가 여러분의 작업 흐름에 통합되도록 하는 것입니다. 이 AI는 이제 생산성의 원천이 되었습니다.

GPT-4o는 미래의 인간-기계 상호작용 패러다임을 위한 새로운 대형 모델로, 텍스트, 음성, 이미지 세 가지 모드의 이해력을 가지고 있으며, 반응이 매우 빠르고 감정을 표현할 수 있으며, 인간적인 면모도 갖추고 있습니다.

현장에서 OpenAI의 엔지니어가 iPhone을 꺼내 새로운 모델의 몇 가지 주요 능력을 시연했습니다. 가장 중요한 것은 실시간 음성 대화로, 마크 첸(Mark Chen)은 "제가 처음으로 라이브 발표회에 왔는데, 조금 긴장됩니다."라고 말했습니다. ChatGPT는 "심호흡을 해보세요."라고 응답했습니다.

"좋아요, 심호흡할게요."

ChatGPT는 즉시 "이건 안 되네요, 숨소리가 너무 크네요."라고 대답했습니다.

이전에 Siri와 같은 음성 비서를 사용해본 적이 있다면, 여기서 뚜렷한 차이를 느낄 수 있습니다. 첫째, AI의 말을 언제든지 중단할 수 있으며, 끝까지 기다릴 필요 없이 다음 대화로 넘어갈 수 있습니다. 둘째, 기다릴 필요가 없으며, 모델의 반응이 매우 빠르고 인간의 반응보다 빠릅니다. 셋째, 모델은 인간의 감정을 충분히 이해하고, 스스로 다양한 감정을 표현할 수 있습니다.

다음은 시각적 능력입니다. 다른 엔지니어가 종이에 직접 쓴 방정식에 대해 ChatGPT는 답을 주는 대신 단계별로 어떻게 해야 하는지 설명해 달라고 요청했습니다. 보기에, 그것은 사람에게 문제를 푸는 방법을 가르치는 데 매우 유망해 보입니다.

ChatGPT는 "수학 문제로 머리가 아플 때마다, 나는 당신 곁에 있습니다."라고 말했습니다.

다음은 GPT-4o의 코드 능력을 시험해 보았습니다. 일부 코드를 가지고 컴퓨터의 데스크탑 버전 ChatGPT와 음성으로 상호작용하며 코드가 무엇을 하는지, 특정 함수가 무엇을 하는지 설명해 달라고 요청했습니다. ChatGPT는 유창하게 대답했습니다.

출력된 코드의 결과는 온도 곡선 그래프였으며, ChatGPT는 이 그래프에 대한 모든 질문에 대해 한 문장으로 응답했습니다.

가장 더운 달은 몇 월인지, Y축이 섭씨인지 화씨인지, 모두 대답할 수 있었습니다.

OpenAI는 또한 X/Twitter에서 실시간으로 제기된 몇 가지 질문에 응답했습니다. 예를 들어, 실시간 음성 번역으로, 스마트폰을 번역기로 사용하여 스페인어와 영어를 번역할 수 있습니다.

또한 누군가가 "ChatGPT가 당신의 표정을 인식할 수 있나요?"라고 질문했습니다.

보기에, GPT-4o는 이미 실시간 비디오 이해를 할 수 있는 것 같습니다.

이제 OpenAI가 오늘 발표한 핵심 내용을 자세히 살펴보겠습니다.

만능 모델 GPT-4o

먼저 소개할 것은 GPT-4o로, o는 Omnimodel(만능 모델)을 의미합니다.

OpenAI는 처음으로 하나의 모델에 모든 모드를 통합하여 대형 모델의 실용성을 크게 향상시켰습니다.

OpenAI CTO 미라 무라티는 "GPT-4o는 'GPT-4 수준'의 지능을 제공하지만, GPT-4의 기반 위에서 텍스트, 비주얼 및 오디오 능력을 개선했습니다."라고 말하며, 향후 몇 주 내에 "점진적으로" 회사 제품에 출시될 것이라고 밝혔습니다.

"GPT-4o의 이유는 음성, 텍스트 및 비주얼을 아우릅니다."라고 미라 무라티는 말했습니다. "우리는 이러한 모델이 점점 더 복잡해지고 있다는 것을 알고 있지만, 상호작용 경험이 더 자연스럽고 간단해지기를 원합니다. 사용자 인터페이스에 신경 쓰지 않고 GPT와의 협업에만 집중할 수 있도록 말이죠."

GPT-4o는 영어 텍스트와 코드에서의 성능이 GPT-4 Turbo와 일치하지만, 비영어 텍스트에서의 성능은 크게 향상되었으며, API 속도도 더 빨라지고 비용이 50% 절감되었습니다. 기존 모델과 비교할 때, GPT-4o는 비주얼 및 오디오 이해에서 특히 뛰어납니다.

가장 빠른 경우 232밀리초 내에 오디오 입력에 응답할 수 있으며, 평균 응답 시간은 320밀리초로 인간과 유사합니다. GPT-4o 출시 이전에 ChatGPT 음성 대화 능력을 경험한 사용자들은 ChatGPT의 평균 지연 시간이 2.8초(GPT-3.5) 및 5.4초(GPT-4)임을 인식할 수 있었습니다.

이 음성 응답 모드는 세 개의 독립 모델로 구성된 파이프라인입니다: 하나의 간단한 모델이 오디오를 텍스트로 전사하고, GPT-3.5 또는 GPT-4가 텍스트를 수신하여 텍스트를 출력하며, 세 번째 간단한 모델이 해당 텍스트를 다시 오디오로 변환합니다. 그러나 OpenAI는 이 방법이 GPT-4가 많은 정보를 잃게 만든다는 것을 발견했습니다. 예를 들어, 모델은 음조, 여러 화자 또는 배경 소음을 직접 관찰할 수 없으며, 웃음, 노래 또는 감정을 표현할 수 없습니다.

하지만 GPT-4o에서는 OpenAI가 텍스트, 비주얼 및 오디오를 엔드 투 엔드로 훈련한 새로운 모델을 만들었습니다. 이는 모든 입력과 출력을 동일한 신경망이 처리한다는 것을 의미합니다.

"기술적인 관점에서 OpenAI는 오디오를 1차 모드로 직접 매핑하고, 비디오를 실시간으로 변환하는 방법을 찾았습니다. 이는 토큰화 및 아키텍처에 대한 새로운 연구가 필요하지만, 전반적으로 데이터 및 시스템 최적화 문제입니다(대부분의 일들이 그렇습니다)."라고 엔비디아 과학자 짐 팬(Jim Fan)은 이렇게 평가했습니다.

GPT-4o는 텍스트, 오디오 및 비디오 간의 실시간 추론을 수행할 수 있으며, 이는 더 자연스러운 인간-기계 상호작용(심지어 인간-기계-기계 상호작용)으로 나아가는 중요한 단계입니다.

OpenAI의 사장 그렉 브록맨(Greg Brockman)도 온라인에서 "활동"하며, 두 개의 GPT-4o가 실시간으로 대화하는 것을 보여주었고, 즉흥적으로 노래를 작곡하게 했습니다. 멜로디는 다소 "감동적"이었지만, 가사는 방의 장식 스타일, 인물의 복장 특징 및 그 사이에 발생한 작은 에피소드 등을 포함했습니다.

또한 GPT-4o는 이미지 이해 및 생성 능력이 기존 모델보다 훨씬 뛰어나며, 이전에는 불가능했던 많은 작업이 "식은 죽 먹기"처럼 쉬워졌습니다.

예를 들어, OpenAI의 로고를 컵받침에 인쇄하도록 요청할 수 있습니다:

이 기간 동안 기술적 문제를 해결한 OpenAI는 ChatGPT가 글꼴을 생성하는 문제를 완벽하게 해결했을 것입니다.

동시에 GPT-4o는 3D 비주얼 콘텐츠 생성 능력을 갖추고 있으며, 6개의 생성된 이미지를 통해 3D 재구성을 할 수 있습니다:

이것은 시가이며, GPT-4o는 이를 손글씨 스타일로 편집할 수 있습니다:

더 복잡한 편집 스타일도 처리할 수 있습니다:

GPT-4o와 협력하면, 몇 문장을 입력하는 것만으로도 연속적인 만화 스토리보드를 얻을 수 있습니다:

아래의 이러한 기능들은 많은 디자이너들을 놀라게 할 것입니다:

이것은 두 장의 생활 사진에서 발전한 스타일화된 포스터입니다:

또한 "텍스트를 아트 글꼴로 변환"하는 등의 소규모 기능도 있습니다:

GPT-4o 성능 평가 결과

OpenAI 기술 팀의 구성원들은 X에서 이전에 LMSYS Chatbot Arena에서 큰 화제를 모은 신비로운 모델 "im-also-a-good-gpt2-chatbot"이 바로 GPT-4o의 한 버전이라고 밝혔습니다.

비교적 어려운 프롬프트 집합에서 ------ 특히 코딩 측면에서: GPT-4o는 OpenAI의 이전 최상 모델에 비해 성능 향상이 특히 두드러졌습니다.

구체적으로 말하자면, 여러 기준 테스트에서 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 Turbo 수준의 성능을 달성했으며, 다국어, 오디오 및 비주얼 기능에서 새로운 최고치를 기록했습니다.

추론 향상: GPT-4o는 5-shot MMLU(상식 문제)에서 87.2%의 새로운 최고 점수를 기록했습니다. (참고: Llama3 400b는 아직 훈련 중입니다.)

오디오 ASR 성능: GPT-4o는 Whisper-v3에 비해 모든 언어의 음성 인식 성능을 크게 향상시켰으며, 특히 자원이 부족한 언어에 대해 더욱 두드러집니다.

GPT-4o는 음성 번역에서 새로운 SOTA 수준을 달성했으며, MLS 기준 테스트에서 Whisper-v3보다 우수한 성능을 보였습니다.

M3Exam 기준 테스트는 다국어 평가 기준이자 비주얼 평가 기준으로, 여러 국가/지역의 표준화된 테스트 다지선다 문제로 구성되어 있으며, 그래픽 및 차트를 포함합니다. 모든 언어 기준 테스트에서 GPT-4o는 GPT-4보다 더 강력합니다.

앞으로 모델 능력의 향상은 더 자연스럽고 실시간의 음성 대화를 가능하게 하며, 실시간 비디오를 통해 ChatGPT와 대화할 수 있게 될 것입니다. 예를 들어, 사용자는 ChatGPT에게 현장 스포츠 경기를 보여주고 규칙을 설명해 달라고 요청할 수 있습니다.

ChatGPT 사용자에게는 무료로 더 많은 고급 기능 제공

매주 1억 명 이상의 사용자가 ChatGPT를 사용하고 있으며, OpenAI는 GPT-4o의 텍스트 및 이미지 기능이 오늘부터 ChatGPT에서 무료로 제공되며, Plus 사용자에게는 최대 5배의 메시지 한도를 제공한다고 밝혔습니다.

지금 ChatGPT를 열어보면, GPT-4o를 사용할 수 있음을 알 수 있습니다.

GPT-4o를 사용할 때, ChatGPT 무료 사용자는 이제 다음 기능에 접근할 수 있습니다: GPT-4 수준의 지능 체험; 사용자는 모델과 네트워크에서 응답을 받을 수 있습니다.

또한 무료 사용자에게는 다음과 같은 선택 사항도 제공됩니다 ------

데이터 분석 및 차트 생성:

촬영한 사진과 대화:

파일을 업로드하여 요약, 작문 또는 분석에 대한 도움을 받기:

GPT 및 GPT 애플리케이션 스토어 발견 및 사용:

기억 기능을 사용하여 더 유용한 경험 만들기.

그러나 사용 상황과 요구에 따라 무료 사용자가 GPT-4o에서 보낼 수 있는 메시지 수는 제한될 수 있습니다. 제한에 도달하면 ChatGPT는 자동으로 GPT-3.5로 전환되어 사용자가 대화를 계속할 수 있도록 합니다.

또한 OpenAI는 향후 몇 주 내에 ChatGPT Plus에서 새로운 버전의 음성 모드 GPT-4o alpha를 출시하고, API를 통해 소수의 신뢰할 수 있는 파트너에게 GPT-4o의 새로운 오디오 및 비디오 기능을 제공할 예정입니다.

물론, 여러 번의 모델 테스트와 반복을 통해 GPT-4o는 모든 모드에서 일부 한계가 존재합니다. 이러한 불완전한 부분에 대해 OpenAI는 GPT-4o를 개선하기 위해 노력하고 있다고 밝혔습니다.

GPT-4o의 음성 모드 개방은 다양한 새로운 위험을 초래할 것입니다. 안전성 문제에 대해 GPT-4o는 훈련 데이터 필터링 및 훈련 후 모델 행동 세분화 등의 기술을 통해 교차 모드 설계에서 안전성을 내장했습니다. OpenAI는 음성 출력을 보호하기 위해 새로운 안전 시스템도 구축했습니다.

새로운 데스크탑 앱으로 사용자 작업 흐름 간소화

무료 및 유료 사용자 모두를 위해 OpenAI는 macOS에 적합한 새로운 ChatGPT 데스크탑 애플리케이션을 출시했습니다. 간단한 키보드 단축키(Option + Space)를 통해 사용자는 즉시 ChatGPT에 질문할 수 있으며, 사용자는 애플리케이션 내에서 스크린샷을 직접 캡처하고 논의할 수 있습니다.

이제 사용자는 컴퓨터에서 ChatGPT와 직접 음성 대화를 할 수 있으며, GPT-4o의 오디오 및 비디오 기능은 향후 출시될 예정입니다. 데스크탑 애플리케이션 오른쪽 하단의 헤드폰 아이콘을 클릭하여 음성 대화를 시작할 수 있습니다.

오늘부터 OpenAI는 Plus 사용자에게 macOS 애플리케이션을 출시하고, 향후 몇 주 내에 더 넓은 범위로 제공할 예정입니다. 또한 올해 말에는 Windows 버전도 출시할 계획입니다.

올트먼: 여러분은 오픈 소스, 우리는 무료

발표가 끝난 후 OpenAI CEO 샘 올트먼은 오랜만에 블로그 글을 발표하며 GPT-4o 작업을 추진하는 과정에서의 심경을 밝혔습니다:

"오늘 발표에서 강조하고 싶은 두 가지가 있습니다.

첫째, 우리의 사명의 핵심 부분은 강력한 인공지능 도구를 무료(또는 저렴한 가격)로 사람들에게 제공하는 것입니다. 저는 ChatGPT에서 세계 최고의 모델을 광고나 유사한 것 없이 무료로 제공하게 되어 매우 자랑스럽습니다.

OpenAI를 설립할 때 우리의 초기 구상은 인공지능을 창조하고 이를 통해 세상에 다양한 이익을 창출하는 것이었습니다. 지금 상황은 달라졌고, 우리는 인공지능을 창조하고, 다른 사람들이 이를 사용하여 다양한 놀라운 것들을 창조하게 될 것입니다. 우리는 모두 그로부터 이익을 얻을 것입니다.

물론, 우리는 기업으로서 많은 유료 제품을 발명할 것이며, 이는 수십억 사람들에게 무료로 훌륭한 인공지능 서비스를 제공하는 데 도움이 될 것입니다(그렇게 되기를 바랍니다).

둘째, 새로운 음성 및 비디오 모드는 제가 사용해본 것 중 최고의 컴퓨터 상호작용 인터페이스입니다. 마치 영화 속 인공지능처럼 느껴지며, 그것이 실제라는 사실에 여전히 약간 놀라고 있습니다. 인간 수준의 응답 시간과 표현 능력에 도달하는 것은 엄청난 도약입니다.

초기 ChatGPT는 언어 인터페이스의 가능성을 암시했지만, 이 새로운 것(GPT-4o 버전)은 본질적으로 다른 느낌을 줍니다 ------ 빠르고, 스마트하며, 재미있고, 자연스럽고, 도움을 줄 수 있습니다.

저에게 컴퓨터와의 상호작용은 결코 자연스러운 일이 아니었습니다. 사실 그렇습니다. 그리고 우리가 (선택적으로) 개인화, 개인 정보 접근, AI가 사람 대신 행동하도록 하는 등의 능력을 추가할 때, 저는 정말로 흥미로운 미래를 볼 수 있습니다. 우리는 컴퓨터를 사용하여 이전보다 더 많은 일을 할 수 있게 될 것입니다.

마지막으로, 이 목표를 달성하기 위해 팀이 기울인 엄청난 노력에 감사드립니다!"

특히 주목할 점은, 지난 주 올트먼이 한 인터뷰에서 "보편적 기본 소득(universal basic income)"은 실현하기 어렵지만 "보편적 기본 컴퓨팅(universal basic compute)"은 실현할 수 있다고 언급한 것입니다. 앞으로 모든 사람이 GPT의 컴퓨팅 파워를 무료로 얻을 수 있으며, 이를 사용하거나 재판매하거나 기부할 수 있습니다.

"이 아이디어는 AI가 점점 더 발전하고 우리의 삶의 모든 측면에 통합됨에 따라, GPT-7과 같은 대형 언어 모델 단위를 소유하는 것이 돈보다 더 가치 있을 수 있다는 것입니다. 당신은 생산성의 일부를 소유하게 됩니다."라고 올트먼은 설명했습니다.

GPT-4o의 출시는 아마도 OpenAI가 이 방향으로 나아가는 첫걸음일 것입니다.

네, 이것은 아직 시작에 불과합니다.

마지막으로 언급할 점은, 오늘 OpenAI 블로그에서 보여준 "5월 13일 발표 추측" 비디오가 거의 완전히 구글의 내일 I/O 회의의 예고편과 겹쳤다는 것입니다. 이는 분명히 구글에 대한 강력한 도전입니다. 오늘 OpenAI의 발표를 보고 구글이 큰 압박을 느꼈을지 궁금합니다.