이번 주 개발자 커뮤니티에서 가장 뜨겁게 회자되는 주제는 DeepSeek V4다. 에이전트(사용자 대신 작업을 수행하는 AI 프로그램)를 실제로 굴려본 개발자라면 누구나 겪는 좌절감이 있다. 모델이 긴 작업 도중 멈추고, 다시 프롬프트를 넣어야 하며, 컨텍스트 예산을 초과하거나 GPU 메모리가 터지고, 도구 호출이 반복될수록 성능이 떨어진다. DeepSeek V4는 이 문제들을 정면으로 겨냥했다.
1M 컨텍스트, 27% FLOPs, 2% KV 캐시
DeepSeek V4는 100만 토큰 컨텍스트 윈도우를 지원한다. 단순한 용량 선언이 아니다. 실제로 사용 가능한지 여부는 그 깊이에서의 추론 비용에 달려 있다. V4-Pro는 단일 토큰 추론 FLOPs(부동소수점 연산량)가 V3.2 대비 27%에 불과하고, KV 캐시(키-값 캐시, 이전 토큰 정보를 저장하는 메모리) 사용량은 10% 수준이다. V4-Flash는 각각 10%, 7%까지 떨어진다. 기존 그룹 쿼리 어텐션(Grouped Query Attention, 여러 쿼리가 키-값을 공유하는 방식) 8헤드, bfloat16(16비트 부동소수점 형식) 저장 기준과 비교하면 KV 캐시 크기는 약 2%에 불과하다.
이 효율성은 어텐션(Attention, 입력 중 중요한 부분에 집중하는 메커니즘)을 두 가지 메커니즘으로 분할하고 레이어 간에 교차 배치함으로써 달성된다. 압축 희소 어텐션(Compressed Sparse Attention, CSA)은 KV 항목을 시퀀스 차원에서 4배 압축하고, FP4(4비트 부동소수점)로 동작하는 라이트닝 인덱서가 쿼리당 상위 k개의 압축 블록을 선택한다. 고압축 어텐션(Heavily Compressed Attention, HCA)은 KV 항목을 128배 압축하고 희소 선택을 생략한다. 두 경로 모두 대부분의 KV 항목을 FP8(8비트 부동소수점)로 저장하고, RoPE(회전 위치 임베딩, 위치 정보를 인코딩하는 방식) 차원만 BF16(16비트 부동소수점)을 사용한다. V4-Pro의 61개 레이어 스택에서 레이어 0-1은 HCA, 레이어 2-60은 CSA와 HCA를 교차 배치한다.
에이전트를 위한 세 가지 설계 선택
긴 컨텍스트 어텐션만으로는 충분하지 않다. DeepSeek V4는 에이전트 워크플로우를 직접 겨냥한 세 가지 후훈련 및 인프라 선택을 도입했다. 첫째, V3.2는 도구 호출 결과 간 추론 내역을 유지했지만 새 사용자 메시지가 오면 폐기했다. V4는 대화에 도구 호출이 포함된 경우 사용자 메시지 경계를 넘어 추론 내용을 보존한다. 둘째, V4는 |DSML| 특수 토큰과 XML 기반 도구 호출 형식을 도입했다. XML 형식은 JSON 문자열 내 도구 호출에서 자주 발생하는 이스케이프 실패를 줄인다. 문자열 파라미터는 string="true"로, 구조화된 파라미터는 JSON으로 string="false"로 전달해 파싱 오류를 제거한다. 셋째, 에이전트 행동은 실제 도구 환경에 대한 강화학습(RL, 시행착오를 통해 최적 행동을 학습하는 방식)으로 훈련되었다. 이를 위해 DeepSeek은 DSec(DeepSeek Elastic Compute)이라는 러스트(Rust, 시스템 프로그래밍 언어) 플랫폼을 구축했다. 하나의 Python SDK 뒤에 함수 호출, 컨테이너, 마이크로VM(Firecracker), 전체 VM(QEMU) 등 네 가지 실행 기반을 제공하며, 단일 클러스터에서 수십만 개의 동시 샌드박스를 실행한다.
예전에는 사람이 직접 붙잡고 보던 작업이다. 긴 에이전트 작업에서 모델이 중간에 맥락을 잃거나 메모리가 부족해지는 건 당연한 수순이었다. 이제는 DeepSeek V4가 그 한계를 기술적으로 해결했다. 개발자가 바로 체감하는 변화는 추론 비용과 메모리 사용량의 급감이다. 100만 토큰 컨텍스트에서도 V4-Pro는 V3.2 대비 73% 적은 연산으로 동작하고, KV 캐시는 90% 적게 소모한다.
커뮤니티의 반응은 엇갈린다. 한쪽에서는 "드디어 에이전트가 실용화될 수 있는 조건이 갖춰졌다"며 환영한다. 다른 쪽에서는 "벤치마크 성능과 실제 사용성은 다르다"며 냉담하다. 하지만 분명한 건 DeepSeek V4가 제시한 방향, 즉 압축 어텐션의 레이어 교차 배치와 에이전트 특화 후훈련은 앞으로 오픈 모델 커뮤니티가 따라갈 길을 명확히 보여준다는 점이다.




