Claude3 출시, GPT-4를 완전히 초월할까?

2024-03-05 16:42:16

수집

방금 Anthropic이 Claude3 모델 시리즈를 출시했다고 발표했으며, 이 시리즈는 광범위한 인지 작업에서 새로운 산업 기준을 세웠습니다.

작성자: 유신

방금 Anthropic이 Claude 3 모델 시리즈를 출시했다고 발표했습니다. 이 시리즈는 광범위한 인지 작업에서 새로운 산업 기준을 세웠습니다. 이 시리즈에는 능력에 따라 증가하는 세 가지 최첨단 모델이 포함되어 있습니다: Claude 3 Haiku, Claude 3 Sonnet 및 Claude 3 Opus. 각 후속 모델은 점점 더 강력한 성능을 제공하여 사용자가 특정 애플리케이션에 가장 적합한 지능, 속도 및 비용 균형을 선택할 수 있도록 합니다.

Opus와 Sonnet은 현재 claude.ai 및 Claude API에서 사용할 수 있으며, 후자는 현재 159개 국가/지역에서 전면적으로 제공됩니다. Haiku는 곧 출시될 예정입니다.

Claude 3 모델 시리즈

지능의 새로운 기준

Opus는 Anthropic의 가장 지능적인 모델로, 대부분의 일반적인 AI 시스템 평가 기준에서 우수한 성능을 보입니다. 여기에는 학부 수준의 전문가 지식(MMLU), 대학원 수준의 전문가 추론(GPQA), 기본 수학(GSM8K) 등이 포함됩니다. 복잡한 작업에서 인간 수준의 이해와 유창함을 보여주며, 일반 지능의 최전선에서 이끌고 있습니다.

모든 Claude 3 모델은 분석 및 예측, 세밀한 콘텐츠 생성, 코드 생성 및 스페인어, 일본어, 프랑스어 등 비영어 언어로의 대화에서 향상된 능력을 보여줍니다.

다음은 Claude 3 모델과 Anthropic 동료 간의 여러 능력 기준 [1]에 대한 비교입니다:

거의 즉각적인 결과

Claude 3 모델은 즉각적인 고객 채팅, 자동 완성 및 데이터 추출 작업을 지원할 수 있으며, 여기서 응답은 즉각적이고 실시간이어야 합니다.

지능 범주에서 Haiku는 시장에서 가장 빠르고 가성비가 높은 모델입니다. 정보가 밀집된 arXiv 연구 논문(~10k 개의 토큰)을 3초도 안 되는 시간에 읽을 수 있습니다. 출시와 함께 Anthropic은 성능이 더욱 향상될 것으로 예상하고 있습니다.

대부분의 작업 부하에 대해 Sonnet은 Claude 2 및 Claude 2.1보다 2배 이상 빠르며, 더 높은 수준의 지능을 가지고 있습니다. 이는 지식 검색이나 판매 자동화와 같이 빠른 응답이 필요한 작업에 적합합니다. Opus의 속도는 Claude 2 및 2.1과 유사하지만 더 높은 수준의 지능을 가지고 있습니다.

강력한 시각 능력

Claude 3 모델은 다른 선도 모델과 동등한 복잡한 시각 능력을 가지고 있습니다. 이들은 사진, 차트, 그래픽 및 기술 도표를 포함한 다양한 시각 형식을 처리할 수 있습니다. Anthropic은 이러한 새로운 모드를 기업 고객에게 제공하게 되어 특히 기쁩니다. 일부 고객의 지식 기반에는 다양한 형식으로 인코딩된 콘텐츠가 최대 50%까지 포함되어 있습니다.

불필요한 거부 감소

이전의 Claude 모델은 종종 불필요한 거부를 하여 맥락 이해 부족을 나타냈습니다. 이 점에서 Anthropic은 실질적인 진전을 이루었습니다: Opus, Sonnet 및 Haiku는 시스템 경계선에 가까운 프롬프트에 대한 응답 거부 가능성이 현저히 낮아졌습니다. 아래 그림에서 볼 수 있듯이, Claude 3 모델은 요청에 대해 더 세밀한 이해를 보여주며, 실제 위험을 식별하고 무해한 프롬프트에 대한 응답 거부 빈도가 현저히 줄어들었습니다.

향상된 정확성

다양한 규모의 기업들이 Anthropic의 모델에 의존하여 고객 서비스를 제공하고 있으며, 이는 Anthropic 모델의 출력이 높은 정확성을 유지하는 것이 매우 중요합니다. 이를 평가하기 위해 Anthropic은 현재 모델의 알려진 약점을 겨냥한 복잡하고 사실적인 질문 세트를 사용했습니다. Anthropic은 응답을 정답, 오답(또는 환각), 불확실성의 인정으로 분류하며, 모델이 잘못된 정보를 제공하는 대신 답을 모른다고 표시합니다. Claude 2.1과 비교할 때, Opus는 이러한 도전적인 개방형 질문에서 정확성(또는 정답)을 두 배 향상시켰으며, 오답 수준을 줄였습니다.

더욱 신뢰할 수 있는 응답을 생성하는 것 외에도, Anthropic은 곧 Anthropic의 Claude 3 모델에서 인용 기능을 활성화하여 정확한 문장을 참조 자료에서 지시하여 답변을 검증할 수 있도록 할 것입니다.

긴 맥락과 거의 완벽한 회수

Claude 3 시리즈 모델은 출시 시 20만 토큰의 맥락 창을 제공합니다. 그러나 세 가지 모델 모두 100만 토큰 이상의 입력을 수용할 수 있으며, Anthropic은 특정 고객에게 향상된 처리 능력을 제공할 수 있습니다.

긴 맥락 프롬프트를 효과적으로 처리하기 위해 모델은 강력한 회수 능력이 필요합니다. "Needle In A Haystack"(NIAH) 평가는 모델이 방대한 데이터 코퍼스에서 정보를 정확하게 회수하는 능력을 측정합니다. Anthropic은 각 프롬프트에 대해 30개의 무작위 바늘/질문 쌍 중 하나를 사용하고, 다양한 크라우드소싱 코퍼스 문서에서 테스트하여 이 기준의 강건성을 강화했습니다.

Claude 3 Opus는 거의 완벽한 회수를 달성했으며, 99% 이상의 정확성을 초과했습니다. 특정 경우에는 "바늘" 문장을 원본 텍스트에 인위적으로 삽입된 것으로 식별하여 평가 자체의 한계를 인식하기도 했습니다.

책임 있는 설계

Anthropic은 Claude 3 시리즈 모델을 개발하여 능력과 신뢰성을 동시에 갖추도록 했습니다. Anthropic은 잘못된 정보 및 CSAM에서 생물 남용, 선거 간섭 및 자율 복제 기술에 이르기까지 다양한 위험을 추적하고 완화하기 위해 여러 전담 팀을 운영하고 있습니다. Anthropic은 Anthropic 모델의 안전성과 투명성을 높이기 위해 "헌법 AI"와 같은 방법을 지속적으로 개발하고 있으며, 새로운 모드가 초래할 수 있는 개인 정보 문제를 완화하기 위해 Anthropic 모델을 조정하고 있습니다.

점점 더 복잡한 모델에서 편견을 해결하는 것은 지속적인 노력이며, Anthropic은 이 새로운 버전에서 진전을 이루었습니다. 모델 카드에 따르면, 질문-답변 편견 기준(BBQ)에 따라 Claude 3는 Anthropic의 이전 모델보다 편견이 적은 것으로 나타났습니다. Anthropic은 편견을 줄이고 모델의 중립성을 증진시키기 위한 기술을 지속적으로 발전시키고 있으며, 특정 정당의 입장에 치우치지 않도록 보장하고 있습니다.

이전 모델에 비해 Claude 3 모델 시리즈는 생물학적 지식, 네트워크 관련 지식 및 자율성 측면에서 개선되었지만, Anthropic의 책임 있는 확장 정책에 따라 여전히 AI 안전 등급 2(ASL-2)에 해당합니다. Anthropic의 레드 팀 평가(Anthropic의 백악관 약속 및 2023년 미국 행정 명령에 따라 수행됨)는 현재 모델이 재앙적 위험에 대한 잠재성이 무시할 수 있을 정도로 낮다고 결론지었습니다. Anthropic은 향후 모델을 면밀히 모니터링하여 ASL-3 기준에 얼마나 근접한지를 평가할 것입니다. Claude 3 모델 카드에는 더 많은 안전 세부 정보가 제공됩니다.

사용 용이성 향상

Claude 3 모델은 복잡한 다단계 지침을 따르는 데 더 나은 성능을 보입니다. 이들은 브랜드 음성과 응답 지침을 따르는 데 특히 능숙하며, 사용자가 신뢰할 수 있는 고객 지향 경험을 개발합니다. 또한, Claude 3 모델은 JSON 형식과 같은 인기 있는 구조화된 출력을 생성하는 데 더 나은 성능을 보이며, 이를 통해 자연어 분류 및 감정 분석과 같은 사용 사례에 대한 지침을 더 쉽게 제공할 수 있습니다.

모델 세부 정보

Claude 3 Opus는 Anthropic의 가장 지능적인 모델로, 매우 복잡한 작업에서 시장 최고의 성능을 보여줍니다. 이는 개방형 프롬프트 및 미지의 상황에서 뛰어난 유창성을 발휘하며, 인간과 유사한 이해 능력을 가지고 있습니다. Opus는 Anthropic이 생성적 AI가 이룰 수 있는 한계를 보여줍니다.

Claude 3 Sonnet은 지능과 속도 간의 이상적인 균형을 이루며, 특히 기업 작업 부하에 적합합니다. 동료 모델에 비해 낮은 비용으로 강력한 성능을 제공하며, 대규모 AI 배포를 위한 높은 내구성을 위해 설계되었습니다.

Claude 3 Haiku는 Anthropic의 가장 빠르고 컴팩트한 모델로, 거의 즉각적인 응답을 제공합니다. 이는 비할 데 없는 속도로 간단한 질문과 요청에 답변합니다. 사용자는 인간 상호작용을 모방하는 원활한 AI 경험을 구축할 수 있습니다.

모델 가용성

Opus와 Sonnet은 오늘 Anthropic의 API에서 사용할 수 있으며, 이 API는 현재 일반적으로 사용 가능하여 개발자가 즉시 등록하고 이러한 모델을 사용할 수 있습니다. Haiku는 곧 출시될 예정입니다. Sonnet은 claude.ai에서 무료 체험을 지원하고 있으며, Opus는 Claude Pro 구독 사용자에게 제공됩니다.

Sonnet은 아마존의 Bedrock 및 구글 클라우드의 Vertex AI 모델 정원에서도 사용할 수 있으며, Opus와 Haiku도 곧 출시될 예정입니다.

더 스마트하고, 더 빠르며, 더 안전하게

Anthropic은 모델의 지능이 아직 극한에 도달하지 않았다고 생각하며, 향후 몇 달 내에 Claude 3 모델 시리즈를 자주 업데이트할 계획입니다. Anthropic은 또한 기업 사용 사례 및 대규모 배포를 위해 Anthropic 모델의 능력을 강화하는 다양한 기능을 발표하게 되어 기쁩니다. 이러한 새로운 기능에는 도구 사용(함수 호출이라고도 함), 대화형 코딩(REPL이라고도 함) 및 더 발전된 에이전트 능력 등이 포함될 것입니다.

포사이트 뉴스

암호화 도박 개의 초상: 운명의 미끼, K선의 포로

남자 대학생의 경험담: 캠퍼스의 바이낸스 알파