DeepSeek V4 등장, GPT-5.5 대비 1/6 가격으로 성능 근접

이번 주 깃허브 트렌드와 허깅페이스 다운로드 차트가 동시에 흔들렸다. DeepSeek V4가 MIT 라이선스로 공개되면서다. 개발자 커뮤니티는 "두 번째 DeepSeek 모멘트"라는 말을 내놓고, 벤치마크 표를 캡처해 서로 공유하기 시작했다.

DeepSeek V4, 1.6조 파라미터 MoE 모델로 MIT 라이선스 공개

DeepSeek은 1월 R1 모델로 전 세계를 깜짝 놀라게 한 중국 AI 스타트업이다. 이번에 공개한 V4는 1.6조 개의 파라미터를 가진 MoE(Mixture-of-Experts, 여러 전문가 모듈을 조합하는 구조) 모델이며, 상업적 사용이 자유로운 MIT 라이선스로 배포된다. 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에서 바로 내려받을 수 있고, API로도 사용할 수 있다. DeepSeek 연구원 Deli Chen은 X(트위터)에서 "484일 만의 노력"이라며 "AGI는 모두의 것"이라고 밝혔다.

API 가격표는 이렇다. Pro 모델 기준, 캐시 미스(cache miss, 이전에 계산한 결과를 재사용하지 못하는 경우) 시 입력 토큰 100만 개당 1.74달러, 출력 토큰 100만 개당 3.48달러다. 입력과 출력을 각각 100만 토큰씩 쓰면 총 5.22달러다. 캐시 히트(cache hit, 이전 결과를 재사용하는 경우) 시 입력 가격이 100만 토큰당 0.145달러로 떨어져, 같은 조건에서 총 3.625달러가 된다.

bash

DeepSeek V4 API 호출 예시 (curl)

curl https://api.deepseek.com/v1/chat/completions \

-H "Content-Type: application/json" \

-H "Authorization: Bearer $DEEPSEEK_API_KEY" \

-d '{

"model": "deepseek-v4-pro",

"messages": [{"role": "user", "content": "Hello"}]

Flash 모델은 더 저렴하다. 캐시 미스 기준 입력 100만 토큰당 0.14달러, 출력 100만 토큰당 0.28달러로, 합계 0.42달러다. 캐시 히트 시에는 0.308달러까지 내려간다. 성능은 Pro보다 떨어지지만, 가격은 GPT-5.5나 Claude Opus 4.7 대비 98% 이상 싸다.

예전에는 최고 성능 모델을 쓰려면 30달러가 기본이었다

OpenAI의 GPT-5.5는 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러로, 같은 조건에서 총 35달러다. Anthropic의 Claude Opus 4.7은 입력 5달러, 출력 25달러로 총 30달러다. DeepSeek V4 Pro는 캐시 미스 기준으로 GPT-5.5의 약 1/7, Claude Opus 4.7의 약 1/6 가격이다. 캐시 히트 시에는 각각 약 1/10, 약 1/8 수준으로 차이가 더 벌어진다.

과거에는 "고성능 모델 = 비싼 API"가 공식처럼 통했다. 기업이 대규모 추론(inference, 모델이 실제로 답을 생성하는 과정) 작업을 돌리려면 토큰당 비용을 감당해야 했다. DeepSeek V4는 이 공식을 깼다. 같은 작업을 1/6 가격에 처리할 수 있으니, 자동화하기엔 너무 비쌌던 작업들이 경제성을 갖추기 시작했다.

개발자가 바로 체감하는 변화는 가격과 라이선스 조합이다

MIT 라이선스는 상업적 사용, 수정, 재배포를 모두 허용한다. 개발자는 모델을 내려받아 자체 서버에 올리거나, 파인튜닝(fine-tuning, 특정 작업에 맞게 모델을 추가 학습시키는 과정)해서 쓸 수 있다. API 비용이 부담스러운 스타트업이나 개인 개발자에게는 이 조합이 결정적이다.

벤치마크 성능은 어디까지 따라왔는가. DeepSeek V4 Pro Max는 BrowseComp(웹 검색 능력을 측정하는 벤치마크)에서 83.4%를 기록해, Claude Opus 4.7의 79.3%를 앞질렀고 GPT-5.5의 84.4%에 1%p 차이로 근접했다. GPT-5.5 Pro의 90.1%에는 못 미치지만, 무료 오픈 모델이라는 점을 감안하면 놀라운 수치다.

다른 벤치마크에서는 여전히 격차가 있다. GPQA Diamond(학술 추론 벤치마크)에서 DeepSeek V4는 90.1%로, GPT-5.5(93.6%)와 Claude Opus 4.7(94.2%)에 뒤진다. Humanity's Last Exam(도구 미사용 시)에서는 37.7%로, GPT-5.5(41.4%)와 Claude Opus 4.7(46.9%)에 밀린다. SWE-Bench Pro(소프트웨어 엔지니어링 벤치마크)에서도 55.4%로, GPT-5.5(58.6%)와 Claude Opus 4.7(64.3%)에 뒤진다.

개발자 커뮤니티의 반응은 "가격 대비 성비가 미쳤다"와 "아직 GPT-5.5를 따라잡진 못했다"로 갈린다. 하지만 BrowseComp에서의 선전은 주목할 만하다. 에이전틱 AI(agentic AI, 스스로 판단하고 행동하는 AI)의 핵심인 웹 브라우징 능력에서 DeepSeek V4가 최고 수준에 근접했다는 뜻이다.

DeepSeek V4는 최고 성능 모델을 완전히 대체하지는 않는다. 하지만 가격을 1/6로 낮추면서 성능 격차를 좁힌 것은 시장의 판단 기준 자체를 바꿔놓았다.