DeepSeek-V4 출시, 100만 토큰 처리 시 메모리 점유율 10%로 절감

수십만 단어의 문서를 입력할 때마다 서버가 멈추거나 천문학적인 비용이 발생하는 상황은 많은 개발자가 겪는 고질적인 병목 현상이다. 거대 언어 모델의 컨텍스트 창(모델이 한 번에 기억하고 처리할 수 있는 정보의 양)을 늘리는 작업은 단순히 데이터를 더 많이 읽는 것을 넘어, 하드웨어 자원을 얼마나 효율적으로 제어하느냐의 싸움으로 변모하고 있다. 최근 공개된 DeepSeek-V4는 이러한 하드웨어 한계를 돌파하기 위해 읽는 방식 자체를 재설계했다.

DeepSeek-V4의 구조와 파라미터 구성

DeepSeek-V4 시리즈는 전문가 혼합 방식(MoE, 전체 모델 중 일부 전문가 파라미터만 활성화하여 연산 효율을 높이는 기술)을 채택한 두 가지 모델로 나뉜다. DeepSeek-V4-Pro는 전체 1.6조 개의 파라미터 중 490억 개를 활성화하며, DeepSeek-V4-Flash는 2840억 개 중 130억 개만을 활성화하는 초경량 구조를 갖췄다. 두 모델 모두 100만 토큰의 컨텍스트 길이를 지원하며, 8비트 부동소수점(FP8 Mixed) 또는 4비트와 8비트가 혼합된(FP4 + FP8 Mixed) 정밀도를 사용한다. 특히 전문가 파라미터에는 4비트 정밀도를 적용해 메모리 점유율을 극단적으로 낮췄다. 학습에는 32조 개 이상의 토큰이 사용되었으며, 지도 미세 조정(SFT, 정답이 있는 데이터를 통한 학습)과 그룹 상대 정책 최적화(GRPO, 강화 학습의 일종)를 거쳐 도메인별 전문가 능력을 통합했다.

하이브리드 어텐션과 연산 효율의 변화

예전에는 컨텍스트 길이가 늘어날수록 키-값 캐시(KV cache, 추론 속도를 높이기 위해 이전 계산 값을 메모리에 저장하는 공간)가 기하급수적으로 증가하여 시스템 자원을 잠식했다. 이제는 압축 희소 어텐션(CSA, 중요 정보 위주로 압축하여 처리하는 기술)과 고압축 어텐션(HCA, 데이터를 더 밀도 있게 압축하는 기술)을 결합한 하이브리드 아키텍처가 이 문제를 해결한다. 이 기술을 통해 100만 토큰 환경에서 이전 버전인 DeepSeek-V3.2 대비 단일 토큰 추론 시 부동소수점 연산 횟수(FLOPs)는 27% 수준으로 감소했고, 키-값 캐시 점유율은 10% 수준까지 떨어졌다. 또한 다양체 제약 하이퍼 연결(mHC, 층간 신호 전달을 안정화하는 기술)과 Muon 옵티마이저(모델 가중치를 효율적으로 최적화하는 알고리즘)를 도입해 학습 안정성을 확보했다. 성능 면에서도 DeepSeek-V4-Pro-Base는 MMLU(대규모 다중작업 언어 이해) 벤치마크에서 90.1%의 정확도를 기록하며 폐쇄형 모델과의 격차를 좁혔다.

개발자가 바로 체감할 수 있는 변화는 제한된 하드웨어 자원에서도 고성능 에이전트 작업이 가능해졌다는 점이다. DeepSeek-V4-Pro-Max 모드는 복잡한 코딩 작업에 최적화되어 있으며, Flash-Max 모델은 충분한 사고 예산(Thinking Budget, 모델이 답변 전 추론에 할애하는 시간)만 주어진다면 Pro 버전과 유사한 성능을 낸다. 모델은 HuggingFace 저장소에서 즉시 내려받아 환경에 맞게 배포할 수 있다.

하드웨어 제약을 소프트웨어 아키텍처로 극복한 이번 사례는 향후 온프레미스 환경에서의 LLM 운용 기준을 완전히 재정의할 것이다.

DeepSeek-V4 출시, 100만 토큰 처리 시 메모리 점유율 10%로 절감

DeepSeek-V4의 구조와 파라미터 구성

하이브리드 어텐션과 연산 효율의 변화

관련 기사