Claude3 發布，或將全面超越 GPT-4？

2024-03-05 16:42:16

剛剛，Anthropic 宣布推出 Claude3 模型系列，該系列在廣泛的認知任務中樹立了新的行業基準。

分享至

撰文：有新

剛剛，Anthropic 宣布推出 Claude 3 模型系列，該系列在廣泛的認知任務中樹立了新的行業基準。該系列包括三種最先進的模型，按能力遞增排列：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個後續模型都提供了越來越強大的性能，允許用戶為其特定應用程序選擇最佳的智能、速度和成本平衡。

Opus 和 Sonnet 現已可在 claude.ai 和 Claude API 中使用，後者目前已在 159 個國家 / 地區全面提供。Haiku 將很快推出。

Claude 3 模型系列

智能的新標準

Opus，Anthropic 最智能的模型，在大多數常見的 AI 系統評估基準上表現優異，包括本科水平的專家知識（MMLU）、研究生水平的專家推理（GPQA）、基本數學（GSM8K）等。它在複雜任務上表現出接近人類水平的理解和流暢度，引領著通用智能的前沿。

所有 Claude 3 模型在分析和預測、細緻的內容創建、代碼生成以及使用西班牙語、日語和法語等非英語語言進行對話方面都顯示出增強的能力。

以下是 Claude 3 模型與 Anthropic 同行在多個能力基準 [1] 上的比較：

近乎即時的結果

Claude 3 模型可以支持即時客戶聊天、自動完成和數據提取任務，其中響應必須是即時的和實時的。

在其智能類別中，Haiku 是市場上速度最快、性價比最高的模型。它可以在不到三秒的時間內閱讀一篇信息密集的 arXiv 研究論文（~10k 個標記），其中包含圖表和圖形。隨著推出，Anthropic 預計性能還會進一步提高。

對於絕大多數工作負載而言，Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍以上，並且具有更高水平的智能。它擅長於需要快速響應的任務，如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似，但具有更高水平的智能。

強大的視覺能力

Claude 3 模型具有與其他領先模型相當的複雜視覺能力。它們可以處理各種視覺格式，包括照片、圖表、圖形和技術圖表。Anthropic 特別激動地向企業客戶提供這種新的模態，其中一些客戶的知識庫中有多達 50% 的內容以各種格式編碼，例如 PDF、流程圖或演示幻燈片。

拒絕減少

以前的 Claude 模型經常做出不必要的拒絕，表明缺乏上下文理解。在這方面 Anthropic 已經取得了實質性進展：Opus、Sonnet 和 Haiku 拒絕回答那些接近系統警戒線的提示的可能性明顯降低，比以前的模型更少。如下圖所示，Claude 3 模型對請求有更加細緻入微的理解，識別出真正的危害，並且拒絕回答無害提示的頻率明顯降低。

提高的準確性

各種規模的企業都依賴於 Anthropic 的模型為他們的客戶服務，這使得 Anthropic 的模型輸出在規模上保持高準確性至關重要。為了評估這一點，Anthropic 使用了一套大量的複雜、事實性問題，針對當前模型的已知弱點。Anthropic 將響應分類為正確答案、錯誤答案（或幻覺）和不確定性的承認，其中模型表示不知道答案而不是提供錯誤信息。與 Claude 2.1 相比，Opus 在這些具有挑戰性的開放式問題上的準確性（或正確答案）實現了兩倍的提高，同時還減少了錯誤答案的水平。

除了產生更可信的響應外，Anthropic 很快將在 Anthropic 的 Claude 3 模型中啟用引用，以便它們可以指向參考資料中的精確句子來驗證其答案。

長上下文和幾乎完美的召回

Claude 3 系列模型在推出時將提供一個 20 萬標記的上下文窗口。但是，所有三個模型都能夠接受超過 100 萬標記的輸入，Anthropic 可能會將此提供給需要增強處理能力的特定客戶。

為了有效地處理長上下文提示，模型需要強大的召回能力。「Needle In A Haystack」（NIAH）評估測量模型從大量數據語料庫中準確召回信息的能力。Anthropic 通過對每個提示使用 30 個隨機針 / 問題對之一，並在多樣化的眾包語料庫文檔上進行測試，增強了這一基準的穩健性。

Claude 3 Opus 不僅實現了近乎完美的召回，超過 99% 的準確性，而且在某些情況下，它甚至通過識別「針」句似乎是人為插入到原始文本中的來識別評估本身的局限性。

負責任的設計

Anthropic 開發了 Claude 3 系列模型，使其在能力的同時也具備了可信賴性。Anthropic 有幾個專門的團隊跟蹤和減輕各種風險，從錯誤信息和 CSAM 到生物濫用、選舉干擾和自主複製技能等。Anthropic 不斷開發方法，例如《憲法 AI》，以提高 Anthropic 模型的安全性和透明度，並調整 Anthropic 的模型以減輕由新模態可能引發的隱私問題。

解決越來越複雜模型中的偏見是一項持續努力，Anthropic 在這個新版本中取得了進展。如模型卡所示，根據問答偏見基準（BBQ），Claude 3 顯示出比 Anthropic 先前的模型更少的偏見。Anthropic 始終致力於推進減少偏見並促進模型更大中立性的技術，確保它們不偏向於任何特定的黨派立場。

雖然與以前的模型相比，Claude 3 模型系列在生物知識、網絡相關知識和自主性方面有所進步，但根據 Anthropic 的負責任擴展政策，它仍然處於 AI 安全等級 2（ASL-2）。Anthropic 的紅隊評估（與 Anthropic 的白宮承諾和 2023 年美國行政命令一致進行）得出結論，目前模型對災難性風險的潛在性可以忽略不計。Anthropic 將繼續密切監視未來的模型，以評估它們與 ASL-3 門檻的接近程度。Claude 3 模型卡中提供了更多安全細節。

更易於使用

Claude 3 模型在遵循複雜的多步指令方面表現更好。它們特別擅長遵循品牌語音和響應指南，並開發用戶可以信賴的面向客戶的體驗。此外，Claude 3 模型在生成流行結構化輸出方面表現更佳，例如 JSON 格式------這樣就更容易對 Claude 進行指導，用於自然語言分類和情感分析等用例。

模型細節

Claude 3 Opus 是 Anthropic 最智能的模型，在高度複雜的任務上表現出市場最佳性能。它可以在開放式提示和未見情況下出色地流暢進行，並具有類似人類的理解能力。Opus 向 Anthropic 展示了生成式 AI 所能實現的極限。

Claude 3 Sonnet 在智能和速度之間取得了理想的平衡------特別是對於企業工作負載而言。與同行相比，它以較低的成本提供強大的性能，並且專為大規模 AI 部署的高耐用性而設計。

Claude 3 Haiku 是 Anthropic 最快、最緊湊的模型，可實現幾乎即時的響應。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠構建無縫的 AI 體驗，模擬人類互動。

模型可用性

Opus 和 Sonnet 今天就可以在 Anthropic 的 API 中使用，該 API 現在已經普遍可用，開發人員可以立即註冊並開始使用這些模型。Haiku 將很快推出。Sonnet 正在為 claude.ai 上的免費體驗提供支持，而 Opus 則適用於 Claude Pro 訂閱用戶。

Sonnet 也可以通過亞馬遜的 Bedrock 和 Google Cloud 的 Vertex AI 模型花園進行使用，Opus 和 Haiku 很快也將推出。

更智能、更快、更安全

Anthropic 認為模型智能遠未達到極限，並計劃在接下來的幾個月內頻繁更新 Claude 3 模型系列。Anthropic 還很高興地發布了一系列功能，以增強 Anthropic 模型的能力，特別是針對企業用例和大規模部署。這些新功能將包括工具使用（也稱為函數調用）、交互式編碼（也稱為 REPL）以及更先進的代理能力等。

關聯標籤

Claude3 Anthropic GPT-4

鏈捕手ChainCatcher提醒，請廣大讀者理性看待區塊鏈，切實提高風險意識，警惕各類虛擬代幣發行與炒作，站內所有內容僅係市場信息或相關方觀點，不構成任何形式投資建議。如發現站內內容含敏感信息，可點擊“舉報”，我們會及時處理。

Foresight News

加密市場不再獎勵鑽石手？

Raydium 負責人：特朗普 Memecoin 的推出讓我興奮，但我馬上就索然無味了

關聯標籤

Claude3 Anthropic GPT-4