DeepSeek는 초고속 긴 문맥 훈련 및 추론을 위한 NSA를 출시했습니다

2025-02-18 16:37:45
수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 DeepSeek가 NSA를 출시했습니다.

DeepSeek는 NSA가 하드웨어와 일치하며 본래 훈련 가능한 희소 주의 메커니즘으로, 초고속의 긴 컨텍스트 훈련 및 추론을 위해 설계되었다고 말했습니다. 현대 하드웨어에 대한 최적화 설계를 통해 NSA는 추론 속도를 높이고, 사전 훈련 비용을 낮추면서 성능에는 영향을 미치지 않습니다.

일반 벤치마크 테스트, 긴 컨텍스트 작업 및 지시 기반 추론에서, 그것의 성능은 완전 주의 모델과 동등하거나 더 나은 것으로 나타났습니다.

관련 태그
체인캐처(ChainCatcher)는 독자들에게 블록체인을 이성적으로 바라보고, 리스크 인식을 실제로 향상시키며, 다양한 가상 토큰 발행 및 조작에 경계해야 함을 상기시킵니다. 사이트 내 모든 콘텐츠는 시장 정보나 관련 당사자의 의견일 뿐이며 어떠한 형태의 투자 조언도 제공하지 않습니다. 만약 사이트 내에서 민감한 정보를 발견하면 “신고하기”를 클릭하여 신속하게 처리할 것입니다.
관련 태그
체인캐처 혁신가들과 함께하는 Web3 세상 구축