10%. 이 수치는 100만 토큰의 컨텍스트 환경에서 DeepSeek V4가 이전 세대 대비 차지하는 KV cache(모델이 이전 대화 내용을 기억하는 임시 저장 공간)의 점유율을 의미한다. 거대한 창고에 가득 찼던 짐들을 효율적으로 압축해 작은 보관함 하나로 줄인 것과 같다. 그리고 이러한 극단적인 효율성은 고성능 코딩 AI의 가격 체계를 완전히 무너뜨리는 근거가 된다.

1.6조 파라미터의 효율적 설계와 가격 파괴

DeepSeek(중국의 AI 연구소)는 4월 24일 Hugging Face를 통해 V4-Pro 모델의 가중치를 MIT 라이선스로 공개했다. 상업적 제한이 없는 이 모델의 API 가격은 출력 토큰 100만 개당 0.30달러로 책정되었다. 이는 Claude Opus 4.7의 25달러, GPT-5.5의 30달러와 비교했을 때 약 83배에서 100배 가까이 저렴한 수준이다. 성능 면에서는 SWE-bench Verified(실제 소프트웨어 엔지니어링 문제를 해결하는 능력을 측정하는 지표)에서 80.6%를 기록하며 Claude Opus 4.6과 단 0.2포인트 차이로 붙었다.

V4-Pro의 내부 설계는 단순한 가격 덤핑이 아닌 구조적 최적화에 기반한다. 1.6조 개의 파라미터를 가진 MoE(여러 개의 전문 모델을 배치해 필요한 부분만 활성화하는 구조) 방식을 채택했으며, 토큰당 실제 활성화되는 파라미터는 490억 개에 불과하다. 연구팀은 단일 토큰 추론 시 발생하는 FLOPs(부동 소수점 연산량)를 V3.2 대비 27% 수준으로 낮췄다. 이러한 비용 구조는 인프라 팀이 자체 하드웨어에서 복제 가능한 수준의 추론 프로필을 반영한다. 자체 호스팅을 하는 팀에게는 1.6조 개의 파라미터 관리가 여전히 도전적이겠으나, 토큰당 경제성은 이미 임계점을 넘었다.

폐쇄형 모델의 해자를 무너뜨린 코딩 지능

예전에는 80% 이상의 SWE-bench 점수를 내는 신뢰할 만한 모델을 쓰려면 최소 100만 토큰당 15달러 이상의 비용을 지불해야 했다. 이제는 MIT 라이선스로 공개된 가중치를 통해 동일한 수준의 지능을 100분의 1 가격으로 구현할 수 있게 되었다. LiveCodeBench Pass@1(코드 생성 정확도를 측정하는 벤치마크)에서는 93.5라는 역대 최고 점수를 기록했다. Codeforces(글로벌 프로그래밍 경진대회 플랫폼) 레이팅 역시 3206을 기록하며 GPT-5.4 xHigh의 3168과 Gemini 3.1 Pro의 3052를 앞질렀다.

개발자가 바로 체감하는 변화는 에이전틱 코딩(AI가 스스로 계획을 세우고 코드를 수정하는 작업)의 진입 장벽이 사라졌다는 점이다. 지난 2년간 폐쇄형 모델들이 고가의 가격 정책을 유지할 수 있었던 근거였던 코딩 성능의 해자가 무너졌다. 이제 오픈 웨이트 모델이 품질 면에서 경쟁력을 갖추면서 API 비용은 두 자릿수 배수로 낮아졌다. 이는 단순한 비용 절감을 넘어, AI 에이전트가 수천 번의 반복 수정 작업을 수행해야 하는 워크플로우를 실무 코드에 적용할 수 있는 경제적 토대가 마련되었음을 뜻한다.

기업의 구매 결정 프로세스에서도 변화가 관찰된다. 4분기까지 이어질 AI 모델 도입 논의에서 벤치마크 성능이 유사한 모델의 가격이 100배 차이 난다는 사실은 강력한 협상 카드가 된다. Anthropic이나 OpenAI 같은 폐쇄형 모델 제공사들은 다음 티어의 가격을 낮추거나, 벤치마크가 포착하지 못하는 정교한 도구 사용 능력을 강화해야 하는 압박을 받게 된다. 성능의 평준화가 일어난 지점에서 가격 경쟁력은 곧 시장 점유율로 직결되기 때문이다.

다만 실무 도입 시 고려해야 할 제약 사항은 명확히 관찰된다. DeepSeek의 벤치마크 투명성은 Anthropic이나 Google에 비해 낮으며, 독립적인 재현 결과가 아직 충분히 쌓이지 않았다. 중국 연구소라는 태생적 특성상 데이터 거버넌스 문제를 무시할 수 없는 기업들이 존재한다. 또한 1.6조 개의 파라미터를 직접 호스팅하려면 멀티 노드 추론 환경이 필수적이므로, 인프라 비용과 데이터 보안 사이의 저울질이 필요하다. 민감한 코드를 다루는 팀은 0.30달러라는 API 가격의 매력과 데이터 노출 위험 사이에서 서로 다른 결론을 내릴 것이다.

프런티어급 코딩 지능에 프리미엄을 지불하던 시대는 끝났으며, 이제 승부는 벤치마크가 측정하지 못하는 도구 활용 능력의 정교함에서 갈릴 것이다.