Claude3 發布,或將全面超越 GPT-4?
撰文:有新
剛剛,Anthropic 宣布推出 Claude 3 模型系列,該系列在廣泛的認知任務中樹立了新的行業基準。該系列包括三種最先進的模型,按能力遞增排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供了越來越強大的性能,允許用戶為其特定應用程序選擇最佳的智能、速度和成本平衡。
Opus 和 Sonnet 現已可在 claude.ai 和 Claude API 中使用,後者目前已在 159 個國家 / 地區全面提供。Haiku 將很快推出。
Claude 3 模型系列
智能的新標準
Opus,Anthropic 最智能的模型,在大多數常見的 AI 系統評估基準上表現優異,包括本科水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基本數學(GSM8K)等。它在複雜任務上表現出接近人類水平的理解和流暢度,引領著通用智能的前沿。
所有 Claude 3 模型在分析和預測、細緻的內容創建、代碼生成以及使用西班牙語、日語和法語等非英語語言進行對話方面都顯示出增強的能力。
以下是 Claude 3 模型與 Anthropic 同行在多個能力基準 [1] 上的比較:
近乎即時的結果
Claude 3 模型可以支持即時客戶聊天、自動完成和數據提取任務,其中響應必須是即時的和實時的。
在其智能類別中,Haiku 是市場上速度最快、性價比最高的模型。它可以在不到三秒的時間內閱讀一篇信息密集的 arXiv 研究論文(~10k 個標記),其中包含圖表和圖形。隨著推出,Anthropic 預計性能還會進一步提高。
對於絕大多數工作負載而言,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍以上,並且具有更高水平的智能。它擅長於需要快速響應的任務,如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但具有更高水平的智能。
強大的視覺能力
Claude 3 模型具有與其他領先模型相當的複雜視覺能力。它們可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表。Anthropic 特別激動地向企業客戶提供這種新的模態,其中一些客戶的知識庫中有多達 50% 的內容以各種格式編碼,例如 PDF、流程圖或演示幻燈片。
拒絕減少
以前的 Claude 模型經常做出不必要的拒絕,表明缺乏上下文理解。在這方面 Anthropic 已經取得了實質性進展:Opus、Sonnet 和 Haiku 拒絕回答那些接近系統警戒線的提示的可能性明顯降低,比以前的模型更少。如下圖所示,Claude 3 模型對請求有更加細緻入微的理解,識別出真正的危害,並且拒絕回答無害提示的頻率明顯降低。
提高的準確性
各種規模的企業都依賴於 Anthropic 的模型為他們的客戶服務,這使得 Anthropic 的模型輸出在規模上保持高準確性至關重要。為了評估這一點,Anthropic 使用了一套大量的複雜、事實性問題,針對當前模型的已知弱點。Anthropic 將響應分類為正確答案、錯誤答案(或幻覺)和不確定性的承認,其中模型表示不知道答案而不是提供錯誤信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)實現了兩倍的提高,同時還減少了錯誤答案的水平。
除了產生更可信的響應外,Anthropic 很快將在 Anthropic 的 Claude 3 模型中啟用引用,以便它們可以指向參考資料中的精確句子來驗證其答案。
長上下文和幾乎完美的召回
Claude 3 系列模型在推出時將提供一個 20 萬標記的上下文窗口。但是,所有三個模型都能夠接受超過 100 萬標記的輸入,Anthropic 可能會將此提供給需要增強處理能力的特定客戶。
為了有效地處理長上下文提示,模型需要強大的召回能力。「Needle In A Haystack」(NIAH)評估測量模型從大量數據語料庫中準確召回信息的能力。Anthropic 通過對每個提示使用 30 個隨機針 / 問題對之一,並在多樣化的眾包語料庫文檔上進行測試,增強了這一基準的穩健性。
Claude 3 Opus 不僅實現了近乎完美的召回,超過 99% 的準確性,而且在某些情況下,它甚至通過識別「針」句似乎是人為插入到原始文本中的來識別評估本身的局限性。
負責任的設計
Anthropic 開發了 Claude 3 系列模型,使其在能力的同時也具備了可信賴性。Anthropic 有幾個專門的團隊跟蹤和減輕各種風險,從錯誤信息和 CSAM 到生物濫用、選舉干擾和自主複製技能等。Anthropic 不斷開發方法,例如《憲法 AI》,以提高 Anthropic 模型的安全性和透明度,並調整 Anthropic 的模型以減輕由新模態可能引發的隱私問題。
解決越來越複雜模型中的偏見是一項持續努力,Anthropic 在這個新版本中取得了進展。如模型卡所示,根據問答偏見基準(BBQ),Claude 3 顯示出比 Anthropic 先前的模型更少的偏見。Anthropic 始終致力於推進減少偏見並促進模型更大中立性的技術,確保它們不偏向於任何特定的黨派立場。
雖然與以前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性方面有所進步,但根據 Anthropic 的負責任擴展政策,它仍然處於 AI 安全等級 2(ASL-2)。Anthropic 的紅隊評估(與 Anthropic 的白宮承諾和 2023 年美國行政命令一致進行)得出結論,目前模型對災難性風險的潛在性可以忽略不計。Anthropic 將繼續密切監視未來的模型,以評估它們與 ASL-3 門檻的接近程度。Claude 3 模型卡中提供了更多安全細節。
更易於使用
Claude 3 模型在遵循複雜的多步指令方面表現更好。它們特別擅長遵循品牌語音和響應指南,並開發用戶可以信賴的面向客戶的體驗。此外,Claude 3 模型在生成流行結構化輸出方面表現更佳,例如 JSON 格式------這樣就更容易對 Claude 進行指導,用於自然語言分類和情感分析等用例。
模型細節
Claude 3 Opus 是 Anthropic 最智能的模型,在高度複雜的任務上表現出市場最佳性能。它可以在開放式提示和未見情況下出色地流暢進行,並具有類似人類的理解能力。Opus 向 Anthropic 展示了生成式 AI 所能實現的極限。
Claude 3 Sonnet 在智能和速度之間取得了理想的平衡------特別是對於企業工作負載而言。與同行相比,它以較低的成本提供強大的性能,並且專為大規模 AI 部署的高耐用性而設計。
Claude 3 Haiku 是 Anthropic 最快、最緊湊的模型,可實現幾乎即時的響應。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠構建無縫的 AI 體驗,模擬人類互動。
模型可用性
Opus 和 Sonnet 今天就可以在 Anthropic 的 API 中使用,該 API 現在已經普遍可用,開發人員可以立即註冊並開始使用這些模型。Haiku 將很快推出。Sonnet 正在為 claude.ai 上的免費體驗提供支持,而 Opus 則適用於 Claude Pro 訂閱用戶。
Sonnet 也可以通過亞馬遜的 Bedrock 和 Google Cloud 的 Vertex AI 模型花園進行使用,Opus 和 Haiku 很快也將推出。
更智能、更快、更安全
Anthropic 認為模型智能遠未達到極限,並計劃在接下來的幾個月內頻繁更新 Claude 3 模型系列。Anthropic 還很高興地發布了一系列功能,以增強 Anthropic 模型的能力,特別是針對企業用例和大規模部署。這些新功能將包括工具使用(也稱為函數調用)、交互式編碼(也稱為 REPL)以及更先進的代理能力等。