遙遙領先的 OpenAI 慢下來了

虎嗅科技組

2024-05-14 10:11:14

當我們創辦 OpenAI 時，我們最初的想法是我們要創造人工智能並利用它為世界創造各種利益。相反，現在看起來我們將創造人工智能，然後其他人將使用它來創造各種令人驚奇的事物，讓我們所有人都受益。

分享至

微信掃碼

出品：虎嗅科技組

作者：齊健

編輯：王一鵬

"如果發布的是GPT-5，那OpenAI依然遙遙領先。如果是AI Search或者是語音助手，那就說明OpenAI沒落了。"

一位AI大模型從業者告訴虎嗅，業內對OpenAI的期待太高，除非是GPT-5這樣的顛覆式創新，否則很難滿足觀眾的"胃口"。

雖然Sam Altman在OpenAI線上直播前，已經預告不會發布GPT-5（或GPT-4.5），但外界對OpenAI的期待早已是九牛拉不轉了。

北京時間5月14日凌晨，OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型）。20多分鐘的演示直播，展示了遠超當前所有語音助手的AI互動體驗，與外媒此前透露的消息基本重合。

雖然GPT-4o的演示效果仍可稱得上"炸裂"，但業內人士普遍認為很難配得上Altman預告中的"魔法"二字。很多人認為，這些功能性的產品，都是"偏離OpenAI使命"的。

OpenAI的PR團隊似乎也預料到了這種輿論走向。發布會現場以及會後Altman發布的博客中對此解釋道：

"我們使命的一個關鍵部分是將非常強大的人工智能工具免費（或以優惠的價格）提供給人們。我非常自豪我們在 ChatGPT 中免費提供了世界上最好的模型，沒有廣告或類似的東西。

當我們創辦 OpenAI 時，我們最初的想法是我們要創造人工智能並利用它為世界創造各種利益。相反，現在看起來我們將創造人工智能，然後其他人將使用它來創造各種令人驚奇的事物，讓我們所有人都受益。"

遙遙領先的 GPT-4o

"如果我們必須等待 5 秒鐘才能得到'每個'回覆，用戶體驗就會一落千丈。即使合成音頻本身聽起來很真實，它也會破壞沉浸感，讓人感覺毫無生氣。"

在OpenAI發布會前夕，英偉達Embodied AI負責人Jim Fan在X上預測了OpenAI會發布的語音助手，並提出：

幾乎所有的語音AI都會經歷三個階段：

語音識別或"ASR"：音頻->文本1，例如Whisper；
計劃下一步要說什麼的 LLM：text1 -> text2;
語音合成或"TTS"：text2 ->音頻，例如ElevenLabs或VALL-E。

經歷 3 個階段會導致巨大的延遲。

GPT-4o在響應速度方面，幾乎解決了延遲問題。GPT-4o的響應音頻輸入的最短時長為232毫秒，平均響應時長320毫秒，幾乎與人類相似。沒有使用GPT-4o的ChatGPT語音對話功能平均延遲為2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。

GPT-4o不僅通過縮短延遲極大地提升了體驗，還在GPT-4的基礎上做了很多升級包括：

極佳的多模態互動能力，包括語音、視頻，以及螢幕共享。
可以實時識別和理解人類的表情，文字，以及數學公式。
交互語音感情豐富，可以變換語音語調、風格，還可以模仿，甚至"即興"唱歌。
超低延時，且可以在對話中實時打斷AI，增加信息或開啟新話題。
所有ChatGPT用戶均可免費使用（有使用上限）。
速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。

"沒落"的 OpenAI

"這些局限性的突破都是創新。"

有業內專家認為，GPT-4o的多模態能力只是"看起來"很好，實際上OpenAI並未展示對於視覺多模態來說真正算是"突破"的功能。

這裡我們按大模型行業的習慣，對比一下隔壁廠Anthropic的Claude 3。

Claude 3的技術文檔中提到，"雖然Claude的圖像理解能力是尖端的，但需要注意一些局限性"。

其中包括：

人物識別：Claude不能用於在圖像中識別（即姓名）人物，並將拒絕這樣做。
準確性：Claude在解釋200像素以下的低質量、旋轉或非常小的圖像時，可能會產生幻覺或犯錯誤。
空間推理：克勞德的空間推理能力有限。它可能很難完成需要精確定位或佈局的任務，例如讀取模擬鐘面或描述棋子的確切位置。
計數：Claude可以給出圖像中物體的近似計數，但可能並不總是精確準確的，特別是對於大量小物體。
AI生成的圖像：Claude不知道圖像是否是人工智能生成的，如果被問到，可能不正確。不要依賴它來檢測假圖像或合成圖像。
不適當的內容：Claude不會處理違反我們可接受使用政策的不適當或露骨的圖像。
醫療保健應用：雖然Claude可以分析一般醫學圖像，但它不是為解釋CT或MRI等複雜診斷掃描而設計的。Claude的輸出不應被視為專業醫療建議或診斷的替代品。

在GPT-4o網站發布的案例中，有一些與"空間推理"有相關的能力，但仍難算得上突破。

此外，從發布會現場演示中GPT-4o輸出的內容很容易看出，其模型能力與GPT-4相差並不大。

GPT-4o 跑分

雖然模型可以在對話中增加語氣，甚至即興演唱，但對話內容還是與GPT-4一樣缺乏細節和創造力。

此外，發布會後OpenAI官網還發布了GPT-4o的一系列應用案例探索。包括：照片轉漫畫風格；會議記錄；圖片合成；基於圖片的3D內容生成；手寫體、草稿生成；風格化的海報，以及連環畫生成；藝術字體生成等。

而這些能力中，照片轉漫畫風格、會議記錄等，也都是一些看起來很普通的文生圖或者是AI大模型功能。

能挑戰現有的商業模式嗎？

"我註冊5個免費的ChatGPT帳號，是不是就不需要每月花20美元訂閱ChatGPT Plus呢？"

OpenAI公布的GPT-4o使用政策是ChatGPT Plus用戶比限制普通用戶的流量限制高5倍。

GPT-4o對所有人免費，首先挑戰的似乎是OpenAI自己的商業模型。

第三方市場分析平台Sensor Tower公布的數據顯示，過去一個月中，ChatGPT在全球App Store中的下載量為700萬，訂閱收入1200萬美元；全球Google Play市場的下載量為9000萬，訂閱收入300萬美元。

目前，ChatGPT Plus在兩個應用商店的訂閱價格均為19.99美元。由訂閱數據推斷，ChatGPT Plus過去一個月中，通過應用商店付費的訂閱用戶數為75萬。雖然ChatGPT Plus還有大量的直接付費用戶，但從手機端的收入來看，每年進項才不到2億美元，再翻幾倍也很難撐起OpenAI近千億的估值。

由此來看，OpenAI在個人用戶充值方面，其實並不需要考慮太多。

更何況GPT-4o主打體驗好，如果你跟AI聊著聊著就斷了，還要換帳號重新聊，那你會不會憤然充值呢？

"最初的 ChatGPT 暗示了語言界面的可能性；這個新事物給人的感覺有本質上的不同。它快速、智能、有趣、自然且有幫助。"

Sam Altman的最新博客中提到了"語言界面的可能性"，這也正是GPT-4o接下來可能要做的：挑戰所有GUI（圖形交互界面），以及想要在LUI（語音交互界面）上發力的人。

結合近期外媒透出的OpenAI與蘋果合作的消息，可以猜測GPT-4o可能很快就要對所有AI PC、AI手機的廠商"拋橄欖枝"或是"掀桌子"。

不管是哪種語音助手或是AI大模型，對於AIPC、AI手機來說核心價值都是優化體驗，而GPT-4o一下把體驗優化到了極致。

GPT-4o很可能會卷到所有已知的App，甚至是SaaS行業。過去一年多時間裡，市場上所有已經開發和正在開發的AI Agent都會面臨威脅。

某位資源聚合類app產品經理曾對虎嗅表示，"我的操作流程就是產品的核心，如果操作流程被你ChatGPT優化了，那相當於我的App沒價值了。"

試想，如果訂外賣的App，UI變成了一句話"給我訂餐"，那打開美團還是打開餓了麼，對於用戶來說就一樣了。

廠商的下一步只能是壓縮供應鏈、生態的利潤空間，甚至是惡性價格戰。

從目前的形式來看，其他廠商要在模型能力上打敗OpenAI恐怕還需要一段時間。

產品要對標OpenAI，可能只有通過做更"便宜"的模型了。