100만 토큰 컨텍스트를 지원하는 DeepSeek-V4
수천 페이지의 기술 문서나 대규모 코드 저장소를 LLM에 입력했을 때, 메모리 부족(OOM) 오류가 발생하거나 추론 속도가 급격히 느려지는 불편을 겪어본 적이 있는가. DeepSeek-AI가 100만 토큰의 방대한 컨텍스트 길이를 지원하는 DeepSeek-V4 시리즈를 공개하며 이 문제에 답했다.
DeepSeek-V4는 입력값에 따라 전체 파라미터 중 일부만 활성화해 연산 효율을 높이는 MoE(Mixture-of-Experts) 방식을 채택했다. 이 구조를 통해 거대 모델의 고질적인 문제인 추론 비용과 메모리 점유율을 획기적으로 낮췄다. 대규모 데이터 처리 과정에서 발생하는 연산 병목 현상을 해결해 처리 효율을 높인 결과다.
모델 라인업은 규모에 따라 DeepSeek-V4-Pro와 DeepSeek-V4-Flash 두 가지로 구성된다. DeepSeek-V4-Pro는 전체 1.6조 개 파라미터 중 490억 개를 활성화하며, DeepSeek-V4-Flash는 전체 2840억 개 중 130억 개를 활성화한다. 각 모델은 활성화 파라미터 수를 조절해 연산 부하를 관리한다.
정밀도 설정에서는 MoE 전문가 파라미터에 FP4(4비트 부동 소수점)를 사용하고, 그 외 파라미터에는 FP8(8비트 부동 소수점)을 혼합 사용하는 방식을 적용했다. 서로 다른 비트의 부동 소수점을 조합해 메모리 효율을 극대화했다. 이를 통해 하드웨어 제약을 줄이면서 대규모 컨텍스트를 처리할 수 있는 기반을 마련했다.
하이브리드 어텐션 구조를 통해 KV 캐시 사용량을 90%
기존 모델들이 컨텍스트 길이를 늘릴 때 메모리 부족으로 멈춰 섰다면, 이번 모델은 연산 효율을 극단적으로 낮추는 방향을 택했다. CSA(Compressed Sparse Attention, 연산량을 줄이기 위해 어텐션 행렬을 희소하게 처리하는 방식)와 HCA(Heavily Compressed Attention, 데이터를 더욱 강하게 압축해 처리하는 방식)를 결합한 하이브리드 어텐션 구조를 적용했다. 이 구조로 KV 캐시(Key-Value cache, 이전 토큰의 계산 값을 저장해 재연산을 방지하는 메모리 공간) 사용량을 10%까지 줄여 기존 대비 90%를 절감했다. 단일 토큰 추론 시 FLOPs(Floating Point Operations per Second, 초당 부동 소수점 연산 횟수)는 DeepSeek-V3.2의 27% 수준으로 낮아졌으며, 이를 통해 100만 토큰의 긴 문맥을 처리할 때 발생하는 메모리 부족 문제를 해결했다.
32조 개 이상의 고품질 토큰을 학습 데이터로 사용해 모델의 기초 체력을 다졌다. mHC(Manifold-Constrained Hyper-Connections, 층간 신호 전달의 안정성을 높여 학습 효율을 개선하는 하이퍼 연결 구조)를 도입해 신호 전파의 안정성을 확보했다. Muon Optimizer(더 빠른 수렴과 학습 안정성을 제공하는 최적화 알고리즘)로 훈련 속도를 높였으며, SFT(Supervised Fine-Tuning, 정답 데이터를 통한 지도 미세 조정)와 GRPO(Group Relative Policy Optimization, 그룹 상대 정책 최적화) 기반의 강화학습을 거쳤다. 마지막으로 온폴리시 증류를 통해 도메인별 전문성을 하나의 모델로 통합했다.
수천 페이지의 문서나 대규모 코드 저장소를 처리할 때 겪던 메모리 부족(OOM)과 추론 속도 저하는 인프라의 물리적 한계였다. DeepSeek-V4는 CSA와 HCA를 결합한 하이브리드 어텐션 구조로 KV 캐시 사용량을 90% 절감하며 100만 토큰의 컨텍스트 길이를 구현했다.
이제 일반적인 인프라 환경에서도 메모리 제약 없이 대규모 기술 문서와 전체 코드베이스를 분석할 수 있는지가 실무적인 판단 기준이 된다. 효율적인 메모리 설계가 모델의 실질적인 처리 용량을 결정한다.



