DeepSeek-V4, 100만 토큰 추론 비용을 90% 낮추다

이번 주 허깅페이스 트렌드에 DeepSeek-V4 체크포인트 네 개가 동시에 올라왔다. 모델 크기가 1.6조 파라미터에 달하지만, 개발자들은 100만 토큰 컨텍스트를 실제로 구동할 수 있을지 의문을 품었다. 기존 트랜스포머 구조에서는 컨텍스트 길이가 두 배로 늘면 연산량이 네 배로 뛰기 때문이다.

1.6T 파라미터, 100만 토큰 컨텍스트

DeepSeek-AI가 DeepSeek-V4 시리즈 프리뷰 버전을 공개했다. 두 모델은 Mixture-of-Experts(MoE, 여러 전문가 모듈을 조합하는 구조) 방식으로 설계되었다. DeepSeek-V4-Pro는 총 1.6T 파라미터에 토큰당 49B가 활성화된다. DeepSeek-V4-Flash는 총 284B 파라미터에 토큰당 13B가 활성화된다. 두 모델 모두 기본 컨텍스트 길이가 100만 토큰이다. V4-Pro는 33T 토큰으로, V4-Flash는 32T 토큰으로 사전 학습되었다. 네 가지 변종(DeepSeek-V4-Pro, DeepSeek-V4-Pro-Base, DeepSeek-V4-Flash, DeepSeek-V4-Flash-Base)의 체크포인트가 허깅페이스에 공개되었다.

핵심 혁신은 네 가지다: 하이브리드 어텐션 구조, 새로운 잔차 연결 설계, 새로운 옵티마이저, FP4 양자화 인식 학습. 100만 토큰 환경에서 V4-Pro는 단일 토큰 추론 FLOPs(부동소수점 연산량)의 27%만 사용한다. KV 캐시(키-값 캐시, 어텐션 계산을 빠르게 하는 저장소) 크기는 V3.2 대비 10%로 줄었다. V4-Flash는 단일 토큰 FLOPs의 10%, KV 캐시의 7%만 필요로 한다.

압축 어텐션과 새로운 옵티마이저

예전에는 100만 토큰 컨텍스트에서 어텐션 연산이 제곱으로 증가해 사실상 불가능했다. 이제 DeepSeek-V4는 Compressed Sparse Attention(CSA, 압축 희소 어텐션)과 Heavily Compressed Attention(HCA, 고압축 어텐션)을 트랜스포머 층에 번갈아 배치했다. CSA는 m개 토큰의 KV 캐시를 하나로 압축한 뒤, 각 쿼리 토큰이 상위 k개 압축 KV 항목에만 어텐션을 수행한다. Lightning Indexer(번개 인덱서)라는 구성 요소가 압축 KV 블록에 대한 쿼리 점수를 매겨 희소 선택을 처리한다. HCA는 더 공격적이다. m′개(m′ ≫ m) 토큰의 KV 항목을 하나로 압축한 뒤 밀집 어텐션을 적용한다. 희소 선택 단계가 필요 없고, 압축비 자체가 KV 캐시 크기를 줄인다.

잔차 연결도 바뀌었다. Manifold-Constrained Hyper-Connections(mHC, 다양체 제약 하이퍼 연결)이 기존 잔차 연결을 대체했다. 하이퍼 연결은 잔차 스트림 폭을 nhc배(두 모델 모두 4)로 확장하고 학습 가능한 입력·잔차·출력 매핑 행렬을 도입한다. mHC는 잔차 매핑 행렬을 Birkhoff 폴리토프(모든 행과 열의 합이 1이고 모든 항목이 0 이상인 이중 확률 행렬의 다양체)로 제약해 스펙트럼 노름을 1로 묶는다. Sinkhorn-Knopp 알고리즘(t_max=20 반복)으로 제약을 적용한다. 매핑 파라미터는 입력마다 동적으로 생성된다.

옵티마이저는 Muon을 채택했다. Muon은 Newton-Schulz 반복으로 그래디언트 업데이트 행렬을 직교화한 뒤 가중치 업데이트로 적용한다. 하이브리드 2단계 스케줄을 사용한다: 빠른 수렴을 위해 8회 반복(계수 3.4445, −4.7750, 2.0315), 이후 안정화를 위해 2회 반복(계수 2, −1.5, 0.5). 임베딩 모듈, 예측 헤드, 정적 바이어스, mHC 게이팅 팩터, 모든 RMSNorm 가중치는 AdamW를 유지한다.

추론 비용과 성능 비교

개발자가 바로 체감하는 변화는 추론 비용이다. FP4(MXFP4) 양자화 인식 학습(QAT)이 MoE 전문가 가중치와 CSA의 Lightning Indexer 쿼리-키 경로에 적용되었다. 추론과 강화학습 롤아웃 시 실제 FP4 가중치를 직접 사용해 메모리 트래픽과 샘플링 지연이 줄었다.

훈련 안정성을 위해 두 가지 기술이 도입되었다. Anticipatory Routing(예측 라우팅)은 백본과 라우팅 네트워크 업데이트를 분리한다. 단계 t의 라우팅 인덱스를 과거 파라미터 θt−Δt로 계산해 라우팅 결정이 MoE 층에서 이상값을 강화하는 순환을 끊는다. SwiGLU Clamping(SwiGLU 클램핑)은 SwiGLU의 선형 성분을 [−10, 10]으로 제약하고 게이트 성분 상한을 10으로 제한해 비정상 활성화를 직접 억제한다.

포스트 트레이닝 파이프라인은 V3.2의 혼합 강화학습 단계를 On-Policy Distillation(OPD, 온폴리시 증류)로 대체했다. 수학, 코딩, 에이전트 작업, 명령 수행 분야의 독립 도메인 전문가를 먼저 SFT(지도 미세 조정)와 GRPO(그룹 상대 정책 최적화) 강화학습으로 훈련한다. 이후 10개 이상의 교사 모델이 단일 학생 모델을 증류한다. 학생이 생성한 궤적에 대해 학생과 각 교사의 출력 분포 간 역 KL 발산을 최소화하며, 전체 어휘 로짓 증류로 안정적인 그래디언트 추정을 확보한다.

세 가지 추론 노력 모드를 지원한다: Non-think(빠름, 명시적 사고 과정 없음), Think High(의도적 추론), Think Max(최대 추론 노력, 전용 시스템 프롬프트와 강화학습 훈련 시 감소된 길이 패널티 적용).

DeepSeek-V4-Pro-Max의 Codeforces 레이팅은 3206으로 GPT-5.4-xHigh(3168)와 Gemini-3.1-Pro-High(3052)를 앞섰다. SimpleQA Verified에서 57.9 Pass@1을 기록해 Claude Opus 4.6 Max(46.2)와 GPT-5.4-xHigh(45.3)를 넘었지만 Gemini-3.1-Pro-High(75.6)에는 뒤졌다. SWE-Verified에서 80.6% 해결률로 GPT-5.4-xHigh(81.2%)에 근소하게 밀렸다.

100만 토큰 추론이 가능해지면서 RAG(검색 증강 생성) 파이프라인을 대체할 수 있는 문턱에 도달했다.

DeepSeek-V4, 100만 토큰 추론 비용을 90% 낮추다

1.6T 파라미터, 100만 토큰 컨텍스트

압축 어텐션과 새로운 옵티마이저

추론 비용과 성능 비교

관련 기사