DeepSeek(중국 AI 스타트업)가 V4 Pro 모델의 API 가격을 기존 대비 75% 할인된 4분의 1 수준으로 공식 조정한다. 이번 결정은 2026년 5월 31일 15시 59분(UTC)까지 한시적으로 운영되던 프로모션 가격을 정식 가격으로 확정한 것이다. 이와 함께 입력 캐시 히트(Input Cache Hit, 이미 처리된 토큰을 재사용할 때 발생하는 비용) 가격을 출시가 대비 10분의 1 수준으로 대폭 낮추며 2026년 4월 26일부터 적용하고 있다.
이번 가격 정책 변경은 단순히 비용을 낮추는 것을 넘어, 모델 라인업의 효율적인 통합을 동반한다. 기존에 사용되던 deepseek-chat과 deepseek-reasoner 모델은 향후 중단될 예정이며, 각각 deepseek-v4-flash의 '비사고 모드(non-thinking mode)'와 '사고 모드(thinking mode)'로 대응된다. 이는 사용자가 모델명을 일일이 바꾸는 대신, 하나의 플래시 모델 내에서 추론 깊이를 조절해 사용하는 방식으로의 전환을 의미한다. 과금 방식은 모델이 인식하는 텍스트의 최소 단위인 토큰(Token, 단어·숫자·문장부호 등)의 총합을 기준으로 하며, 충전 잔액과 부여된 잔액 중 부여된 잔액을 우선 차감하는 방식을 유지한다.
V4 Pro 가격 1/4 조정 및 캐시 비용 90% 인하
개발자가 API(응용 프로그램 인터페이스, 소프트웨어 간 통신 규칙)를 사용할 때 가장 먼저 체감하는 변화는 비용 수치다. 딥시크(DeepSeek)는 V4 Pro 모델의 API 가격을 기존의 4분의 1 수준으로 공식 조정했다. 이번 가격 조정은 2026년 5월 31일 15시 59분 UTC에 진행되는 프로모션 종료 시점 이후부터 정식으로 적용된다. 과금의 기준이 되는 단위는 토큰(Token)이다. 토큰은 인공지능 모델이 텍스트를 인식하고 처리하는 가장 작은 단위이며, 하나의 단어나 숫자 혹은 단순한 문장 부호 하나가 하나의 토큰이 될 수 있다. 쉽게 말하면 글자를 아주 잘게 쪼갠 레고 블록과 같아서, 문장이 길어질수록 더 많은 블록이 필요하게 된다. 딥시크는 사용자가 모델에 전달한 입력 토큰과 모델이 생성해낸 출력 토큰의 총합을 모두 합산하여 최종 비용을 청구하는 방식을 택했다.
더욱 파격적인 부분은 입력 캐시 히트(Input Cache Hit, 이전에 입력한 데이터를 다시 처리하지 않고 저장된 값을 불러오는 기술) 비용의 인하다. 딥시크는 이 비용을 출시가 대비 10분의 1 수준으로 대폭 낮췄다. 해당 가격 조정은 2026년 4월 26일 12시 15분 UTC부터 이미 적용되어 운영되고 있다. 비유하자면 요리사가 매번 요리법 전체를 처음부터 끝까지 읽는 대신, 자주 사용하는 핵심 레시피를 포스트잇으로 붙여두고 필요할 때마다 바로 확인하는 것과 비슷하다. 인공지능이 이전 대화 내용이나 방대한 문서를 기억하고 있을 때, 이를 다시 읽어들이는 과정에서 발생하는 비용을 90%나 깎아준 셈이다. 이는 대화가 길어지거나 동일한 문맥을 반복해서 참조해야 하는 작업에서 기하급수적으로 늘어나는 연산 비용 부담을 획기적으로 줄여주는 핵심 장치가 된다.
전체적인 비용 계산 공식은 사용한 토큰 수에 해당 단가를 곱하는 단순한 구조를 따른다. 이렇게 산출된 최종 금액은 사용자가 계정에 미리 충전해둔 잔액이나 시스템에서 부여받은 무료 잔액에서 직접 차감된다. 만약 두 가지 잔액이 모두 존재한다면, 시스템은 부여받은 잔액을 우선적으로 소진한 뒤 충전 잔액을 사용하는 순서를 적용한다. 딥시크는 제품 가격이 시장 상황에 따라 변동될 수 있으며, 이에 따라 운영사가 가격을 조정할 권리를 가진다고 명시했다. 따라서 사용자는 실제 이용 패턴에 맞춰 적절한 금액을 충전하고 최신 가격 정보를 주기적으로 확인하는 것이 효율적이다. 특히 이번 캐시 비용 인하는 긴 문맥을 유지해야 하는 전문적인 코딩 보조 도구나 대규모 문서 분석 서비스의 운영 비용을 낮추는 데 결정적인 역할을 할 것으로 보인다.
모델 통합: chat·reasoner에서 V4 Flash 모드 전환으로
개발자가 API(응용 프로그램 인터페이스, 소프트웨어 간 통신 규칙)를 호출할 때 사용하던 모델 이름부터 바뀐다. 기존에는 단순 대화용인 deepseek-chat과 복잡한 추론용인 deepseek-reasoner를 각각 별개의 모델로 취급해 구분해서 호출해야 했다. 하지만 이번 업데이트를 통해 이 두 기능이 deepseek-v4-flash라는 하나의 모델 안으로 통합되었다. 이제는 모델 자체를 교체하는 것이 아니라, 하나의 모델 내에서 모드 설정만 변경해 사용하는 구조로 변경되었다.
비유하자면 예전에는 빠른 계산이 필요할 때 계산기를 꺼내고, 복잡한 기획안을 짤 때 공책을 꺼내던 방식이었다. 도구 자체가 완전히 달랐기에 상황에 맞춰 도구를 물리적으로 교체하는 번거로움이 있었다. 하지만 이제는 모든 기능이 통합된 스마트 패드 하나를 사용하는 셈이다. 설정 메뉴에서 빠른 응답 모드를 선택하면 계산기처럼 즉각적으로 답을 내놓고, 심층 추론 모드를 선택하면 공책에 메모하며 논리를 전개하듯 단계별로 답을 찾아간다. 쉽게 말하면 도구의 종류를 바꾸는 단계에서 도구의 작동 방식만 전환하는 단계로 진화한 것이다.
구체적인 대응 관계를 보면 deepseek-chat은 deepseek-v4-flash의 non-thinking mode(비추론 모드)로 연결된다. 이는 질문을 받자마자 가장 확률 높은 답변을 바로 출력하는 방식으로, 일상적인 대화나 간단한 정보 검색에 최적화되어 있다. 반면 deepseek-reasoner는 deepseek-v4-flash의 thinking mode(추론 모드)로 대응한다. 추론 모드는 AI가 정답을 내놓기 전에 내부적으로 생각의 흐름을 정리하고 검증하는 과정을 거친다. 수학 문제 풀이나 복잡한 코드 작성처럼 논리적 정밀함이 필요한 작업에서 강점을 보인다.
이러한 통합 조치에 따라 기존에 사용하던 deepseek-chat과 deepseek-reasoner라는 모델명은 향후 중단될 예정이다. 소프트웨어 업계에서 말하는 deprecated(더 이상 권장되지 않음) 상태가 된다는 뜻이다. 개발자 입장에서는 관리해야 할 모델 리스트가 줄어들어 전체적인 시스템 아키텍처가 단순해지는 효과가 있다. 이전에는 서로 다른 모델을 호출하기 위해 코드 상에서 복잡한 분기 처리를 해야 했다면, 이제는 하나의 모델 경로를 유지하면서 파라미터(매개변수, 모델의 동작을 제어하는 설정값)만 조정하면 된다. 이는 운영 효율성을 높이는 동시에 향후 모델이 업데이트될 때 대응 속도를 획기적으로 빠르게 만드는 전략적 선택이다.
토큰 비용 절감이 가져올 AI 서비스 배포 환경의 변화
입력 캐시 히트 비용이 출시 당시보다 90%나 낮아졌다. 개발자가 가장 먼저 체감하는 지점은 RAG(검색 증강 생성, 외부 데이터를 찾아 AI에게 전달하는 기술) 시스템의 운영비다. 비유하자면 요리사가 매번 두꺼운 레시피 책 전체를 처음부터 읽는 대신, 자주 쓰는 페이지를 펼쳐두고 빠르게 확인하는 것과 같다. 기존에는 AI에게 매번 방대한 배경 지식을 다시 알려줘야 해서 입력 토큰 비용이 계속 누적되는 구조였다. 하지만 이제는 한 번 읽은 내용을 기억하는 캐시 효율이 극대화되면서, 동일한 문서를 반복해서 참조할 때 발생하는 비용이 10분의 1 수준으로 떨어진다. 이는 기업이 수만 페이지의 사내 매뉴얼이나 방대한 법률 문서를 AI에 연결해 서비스할 때 발생하는 고정 지출을 획기적으로 낮추는 결과로 이어진다. 특히 대화가 길어질수록 이전 맥락을 계속 입력해야 하는 챗봇 서비스에서 운영 효율이 극대화된다.
V4 Pro 모델의 가격 정책 변화는 고성능 모델 도입의 심리적, 경제적 문턱을 완전히 낮춘다. 현재 진행 중인 75% 할인 프로모션이 종료된 이후에도 API 가격은 기존의 4분의 1 수준으로 영구 조정된다. 쉽게 말하면 전문가용 고성능 장비를 보급형 가격으로 사용할 수 있게 된 셈이다. 그동안 많은 기업이 추론 능력이 뛰어난 고성능 모델을 원하면서도 토큰당 비용 부담 때문에 어쩔 수 없이 성능이 낮은 경량 모델을 선택하거나, 복잡한 프롬프트를 깎아 성능을 억지로 끌어올리는 방식을 택해 왔다. 하지만 영구적인 저가 정책이 적용되면 복잡한 논리 구조나 정밀한 데이터 분석이 필요한 전문 서비스에서도 비용 걱정 없이 최상위 모델을 기본 엔진으로 채택하는 환경이 조성된다. 이는 서비스의 전체적인 품질 상향 평준화를 이끄는 핵심 요인이 된다.
실제 결제 프로세스에서도 개발자의 실험 가능성을 높이는 우선순위가 적용된다. 비용 차감은 플랫폼에서 제공한 부여된 잔액(granted balance)에서 먼저 이루어지고, 이후 사용자가 직접 결제한 충전 잔액(topped-up balance)이 사용되는 방식이다. 개발자 입장에서는 무료 크레딧을 먼저 소진하며 다양한 프롬프트 실험과 성능 검증을 거친 뒤, 실제 서비스 배포 단계에서 유료 결제분으로 전환할 수 있어 초기 진입 리스크가 크게 줄어든다. 이러한 비용 구조의 변화는 단순한 가격 인하를 넘어, AI 서비스의 설계 패러다임 자체를 바꾸는 동력이 된다. 비용 최적화를 위해 모델의 지능을 타협하던 시대에서, 이제는 최상위 모델의 성능을 최대한 활용하며 어떻게 하면 더 정교한 사용자 경험을 만들 수 있을지 고민하는 시대로 전환되는 것이다.




