먼저 나아가던 OpenAI가 느려졌다

2024-05-14 10:11:14

수집

우리가 OpenAI를 설립할 때, 우리의 초기 생각은 인공지능을 창조하고 이를 통해 세상에 다양한 이익을 창출하는 것이었습니다. 반대로 지금 보니 우리는 인공지능을 창조하고, 다른 사람들이 이를 사용하여 다양한 놀라운 것들을 만들어내어 우리 모두가 혜택을 누리게 될 것 같습니다.

위챗으로 스캔하기

출품：호수기술팀

저자：치젠

편집：왕이펑

"만약 발표되는 것이 GPT-5라면, OpenAI는 여전히 앞서 나갈 것입니다. 만약 AI 검색이나 음성 비서라면, OpenAI는 쇠퇴하고 있다는 것을 의미합니다."

한 AI 대모델 종사자는 호수에게 업계가 OpenAI에 대한 기대가 너무 높다고 전하며, GPT-5와 같은 파괴적인 혁신이 아니면 관객의 "입맛"을 충족시키기 어렵다고 말했습니다.

비록 샘 올트먼이 OpenAI 온라인 생중계 전에 GPT-5(또는 GPT-4.5)를 발표하지 않을 것이라고 예고했지만, 외부에서 OpenAI에 대한 기대는 이미 매우 커졌습니다.

베이징 시간 5월 14일 새벽, OpenAI는 최신 GPT-4o를 발표했습니다. o는 Omnimodel(전능 모델)을 의미합니다. 20분이 넘는 시연 생중계에서 현재 모든 음성 비서를 초월하는 AI 상호작용 경험을 보여주었으며, 외신에서 이전에 전한 정보와 기본적으로 일치했습니다.

비록 GPT-4o의 시연 효과는 여전히 "폭발적"이라고 할 수 있지만, 업계 전문가들은 일반적으로 올트먼이 예고한 "마법"이라는 단어에 걸맞지 않다고 생각합니다. 많은 사람들은 이러한 기능성 제품들이 "OpenAI의 사명에서 벗어난 것"이라고 여깁니다.

OpenAI의 PR 팀은 이러한 여론의 흐름을 예측한 것처럼 보입니다. 발표회 현장 및 발표 후 올트먼이 발표한 블로그에서 이에 대해 설명했습니다:

"우리 사명의 핵심 부분 중 하나는 매우 강력한 인공지능 도구를 무료(또는 저렴한 가격)로 사람들에게 제공하는 것입니다. 저는 ChatGPT에서 세계 최고의 모델을 광고나 유사한 것 없이 무료로 제공한 것에 대해 매우 자랑스럽게 생각합니다.

우리가 OpenAI를 설립할 때, 우리의 초기 생각은 인공지능을 창조하고 이를 통해 세계에 다양한 이익을 창출하는 것이었습니다. 그러나 지금 보니 우리는 인공지능을 창조하고, 다른 사람들이 이를 사용하여 다양한 놀라운 것들을 만들어내어 우리 모두가 혜택을 누리게 될 것 같습니다."

앞서 나가는 GPT-4o

"우리가 '모든' 응답을 받기 위해 5초를 기다려야 한다면, 사용자 경험은 급격히 떨어질 것입니다. 합성된 오디오가 실제처럼 들리더라도, 몰입감을 해치고 생기가 없게 느껴질 것입니다."

OpenAI 발표회 전날, 엔비디아 Embodied AI 책임자 짐 팬은 X에서 OpenAI가 발표할 음성 비서에 대해 예측하며 다음과 같이 말했습니다:

거의 모든 음성 AI는 세 가지 단계를 거칩니다:

음성 인식 또는 "ASR": 오디오 -> 텍스트1, 예: Whisper;
다음에 말할 내용을 계획하는 LLM: 텍스트1 -> 텍스트2;
음성 합성 또는 "TTS": 텍스트2 -> 오디오, 예: ElevenLabs 또는 VALL-E.

세 가지 단계를 거치면 엄청난 지연이 발생합니다.

GPT-4o는 응답 속도 측면에서 거의 지연 문제를 해결했습니다. GPT-4o의 응답 오디오 입력의 최소 소요 시간은 232밀리초, 평균 응답 시간은 320밀리초로, 거의 인간과 유사합니다. GPT-4o를 사용하지 않은 ChatGPT 음성 대화 기능의 평균 지연 시간은 2.8초(GPT-3.5) 및 5.4초(GPT-4)입니다.

GPT-4o는 지연을 단축하여 경험을 크게 향상시켰을 뿐만 아니라, GPT-4를 기반으로 많은 업그레이드를 포함했습니다:

뛰어난 다중 모드 상호작용 능력, 음성, 비디오 및 화면 공유 포함.
인간의 표정, 문자 및 수학 공식을 실시간으로 인식하고 이해할 수 있습니다.
상호작용 음성이 감정이 풍부하며, 음성 톤, 스타일을 변화시킬 수 있고, 모방하거나 심지어 "즉흥적으로" 노래할 수 있습니다.
초저지연이며, 대화 중 AI를 실시간으로 중단하고 정보를 추가하거나 새로운 주제를 시작할 수 있습니다.
모든 ChatGPT 사용자는 무료로 사용할 수 있습니다(사용 한도 있음).
속도는 GPT-4 Turbo의 2배이며, API 비용은 50% 낮고, 속도 제한은 5배 높습니다.

"쇠퇴"하는 OpenAI

"이러한 한계의 돌파는 모두 혁신입니다."

업계 전문가들은 GPT-4o의 다중 모드 능력이 "보기에는" 좋지만, 실제로 OpenAI가 시각적 다중 모드에 대해 진정한 "돌파" 기능을 보여주지 않았다고 생각합니다.

여기서 우리는 대모델 산업의 관습에 따라 이웃 회사인 Anthropic의 Claude 3과 비교해 보겠습니다.

Claude 3의 기술 문서에서는 "Claude의 이미지 이해 능력이 최첨단이지만, 몇 가지 한계를 주의해야 한다"고 언급했습니다.

여기에는 다음과 같은 내용이 포함됩니다:

인물 인식: Claude는 이미지에서 인물(즉, 이름)을 인식하는 데 사용할 수 없으며, 그렇게 하는 것을 거부합니다.
정확성: Claude는 200픽셀 이하의 저품질, 회전 또는 매우 작은 이미지에 대해 설명할 때 환각을 일으키거나 오류를 범할 수 있습니다.
공간 추론: Claude의 공간 추론 능력은 제한적입니다. 정확한 위치 지정이나 배치가 필요한 작업을 수행하는 데 어려움을 겪을 수 있습니다. 예를 들어, 아날로그 시계판을 읽거나 체스 기물의 정확한 위치를 설명하는 것입니다.
개수 세기: Claude는 이미지에서 물체의 근사 개수를 제공할 수 있지만, 특히 많은 작은 물체에 대해서는 항상 정확하지 않을 수 있습니다.
AI 생성 이미지: Claude는 이미지가 AI 생성인지 여부를 알지 못하며, 질문을 받을 경우 부정확할 수 있습니다. 가짜 이미지나 합성 이미지를 감지하는 데 의존하지 마십시오.
부적절한 콘텐츠: Claude는 우리의 수용 가능한 사용 정책을 위반하는 부적절하거나 노골적인 이미지를 처리하지 않습니다.
의료 응용: Claude는 일반적인 의료 이미지를 분석할 수 있지만, CT나 MRI와 같은 복잡한 진단 스캔을 해석하도록 설계되지 않았습니다. Claude의 출력은 전문 의료 조언이나 진단의 대체물로 간주되어서는 안 됩니다.

GPT-4o 웹사이트에 게시된 사례 중 일부는 "공간 추론"과 관련된 능력을 가지고 있지만, 여전히 돌파라고 보기는 어렵습니다.

또한 발표회 현장에서 GPT-4o가 출력한 내용을 보면, 그 모델 능력이 GPT-4와 크게 다르지 않다는 것을 쉽게 알 수 있습니다.

GPT-4o 점수

모델이 대화 중에 어조를 추가하거나 심지어 즉흥적으로 노래할 수 있지만, 대화 내용은 여전히 GPT-4와 마찬가지로 세부 사항과 창의성이 부족합니다.

또한 발표회 후 OpenAI 공식 웹사이트는 GPT-4o의 일련의 응용 사례 탐색을 발표했습니다. 여기에는 사진을 만화 스타일로 변환하기, 회의 기록, 이미지 합성, 이미지 기반 3D 콘텐츠 생성, 손글씨 및 초안 생성, 스타일화된 포스터 및 만화 생성, 예술 글꼴 생성 등이 포함됩니다.

이러한 능력 중 사진을 만화 스타일로 변환하기, 회의 기록 등은 모두 그저 평범해 보이는 문서 생성 또는 AI 대모델 기능입니다.

기존의 비즈니스 모델에 도전할 수 있을까?

"제가 5개의 무료 ChatGPT 계정을 등록하면 매달 20달러를 지불하고 ChatGPT Plus를 구독할 필요가 없을까요?"

OpenAI가 발표한 GPT-4o 사용 정책은 ChatGPT Plus 사용자가 일반 사용자보다 5배 높은 트래픽 제한을 가지고 있다는 것입니다.

GPT-4o는 모든 사용자에게 무료로 제공되며, 처음으로 도전하는 것은 OpenAI 자신의 비즈니스 모델인 것 같습니다.

제3자 시장 분석 플랫폼 Sensor Tower가 발표한 데이터에 따르면, 지난 한 달 동안 ChatGPT는 전 세계 App Store에서 700만 번 다운로드되었고, 구독 수익은 1200만 달러에 달했습니다. 전 세계 Google Play 시장에서의 다운로드 수는 9000만이며, 구독 수익은 300만 달러입니다.

현재 ChatGPT Plus는 두 개의 앱 스토어에서 구독 가격이 각각 19.99달러입니다. 구독 데이터를 통해 추정해보면, ChatGPT Plus는 지난 한 달 동안 앱 스토어를 통해 유료 구독한 사용자 수가 75만 명에 달합니다. ChatGPT Plus에는 많은 직접 유료 사용자도 있지만, 모바일 단말기에서의 수익을 보면 연간 수익이 2억 달러에 미치지 못하며, 몇 배로 늘려도 OpenAI의 거의 천억 달러의 가치를 지탱하기는 어렵습니다.

이로 인해 OpenAI는 개인 사용자 충전 측면에서 사실상 많은 것을 고려할 필요가 없습니다.

게다가 GPT-4o는 좋은 경험을 강조하고 있으며, 만약 AI와 대화 중에 연결이 끊기고 계정을 바꿔 다시 대화해야 한다면, 당신은 과연 화가 나서 충전할까요?

"초기의 ChatGPT는 언어 인터페이스의 가능성을 암시했습니다; 이 새로운 것은 본질적으로 다르게 느껴집니다. 빠르고, 스마트하며, 재미있고, 자연스럽고 도움이 됩니다."

샘 올트먼의 최신 블로그에서는 "언어 인터페이스의 가능성"을 언급했으며, 이는 GPT-4o가 앞으로 해야 할 일입니다: 모든 GUI(그래픽 사용자 인터페이스)와 LUI(음성 사용자 인터페이스)에서 힘을 발휘하고자 하는 사람들에게 도전하는 것입니다.

최근 외신에서 OpenAI와 애플의 협력 소식이 전해진 것을 결합해보면, GPT-4o는 곧 모든 AI PC 및 AI 스마트폰 제조사에 "올리브 가지"를 내밀거나 "테이블을 뒤엎을" 가능성이 있습니다.

어떤 음성 비서나 AI 대모델이든 AIPC, AI 스마트폰에 대한 핵심 가치는 경험 최적화이며, GPT-4o는 경험을 극대화했습니다.

GPT-4o는 모든 알려진 앱, 심지어 SaaS 산업까지 영향을 미칠 가능성이 높습니다. 지난 1년 이상 동안 시장에서 개발된 모든 AI 에이전트는 위협을 받을 것입니다.

어떤 자원 집합형 앱의 제품 관리자는 호수에게 "내 작업 흐름이 제품의 핵심인데, 만약 당신의 ChatGPT가 작업 흐름을 최적화한다면, 내 앱은 가치가 없게 됩니다."라고 말했습니다.

상상해보세요, 만약 배달 음식을 주문하는 앱의 UI가 "음식 주문해줘"라는 한 문장으로 바뀐다면, 메이투안이나 어러머를 여는 것은 사용자에게는 똑같은 일이 될 것입니다.

제조업체의 다음 단계는 공급망과 생태계의 이익 공간을 압축하거나, 심지어 악성 가격 전쟁을 벌이는 것뿐입니다.

현재 상황으로 보아, 다른 제조업체가 모델 능력에서 OpenAI를 이기기 위해서는 아마도 시간이 필요할 것입니다.

제품이 OpenAI에 대항하려면, 아마도 더 "저렴한" 모델을 만들어야 할 것입니다.

국내 산업에 대한 영향

"최근에 너무 바빠서 그들을 주목할 시간이 없었습니다."

한 산업 AI 대모델 창립자는 호수에게 최근 전략적 협력, 제품 발표, 고객 및 자본 교류에 바빠서 OpenAI의 발표를 전혀 주목할 시간이 없었다고 말했습니다.

OpenAI 발표 전에 호수는 여러 산업의 국내 AI 종사자들에게 OpenAI의 최신 발표에 대한 예측과 의견을 물어보았고, 그들은 모두 매우 기대하고 있지만 "나와는 무관하다"고 일치된 의견을 보였습니다.

한 종사자는 현재 국내의 진행 상황을 고려할 때, 단기적으로 OpenAI를 따라잡는 것은 비현실적이라고 말했습니다. 그래서 OpenAI가 발표한 내용을 주목하는 것은 최신 기술 방향을 살펴보는 것에 불과하다고 덧붙였습니다.

현재 국내 기업들은 AI 대모델 개발에 있어 일반적으로 공학화와 수직 모델에 주목하고 있으며, 이러한 방향은 비교적 실용적이고 수익화하기 쉽습니다.

공학 분야에서는 최근 인기를 끌고 있는 Deepseek가 국내 대모델 산업에서 토큰 가격 전쟁을 일으키고 있습니다. 수직 모델 분야에서는 여러 업계 관계자들이 호수에게 단기적으로 소형 모델과 수직 모델의 개발은 OpenAI의 영향을 받지 않을 것이라고 전했습니다.

"때때로 OpenAI의 기술 방향은 그리 참고할 만한 것이 아닙니다." 한 모델 전문가는 호수에게 Sora가 좋은 예라고 말하며, 2024년 2월 OpenAI가 비디오 모델 Sora를 발표하여 60초의 안정적인 비디오 출력을 구현했지만, 후속 실험은 거의 없고 실제 적용 속도도 매우 느리다고 전했습니다.

Sora 이전에, 국내에서 문서 생성 비디오 분야에 힘쓰고 있는 많은 회사와 기관들은 이미 15초 안정적인 비디오 생성을 실현했으며, Sora가 출시된 이후 일부 회사의 연구 개발, 자금 조달 및 제품 일정이 모두 혼란스러워졌습니다. 심지어 문서 생성 비디오 산업의 발전이 "기술의 대약진"으로 변모하게 되었습니다.

다행히 이번 GPT-4o는 Sora와는 크게 다릅니다. OpenAI CTO 무리 무라티는 "앞으로 몇 주 내에 우리는 계속해서 우리의 반복 배포를 진행하여 모든 기능을 제공할 것"이라고 밝혔습니다.

발표회가 끝난 지 얼마 되지 않아, GPT-4o는 이미 온라인에서 시험 사용이 가능해졌습니다.