기업들이 AI를 도입하며 가장 먼저 마주하는 벽은 성능이 아니라 매달 청구되는 엄청난 고지서다. 최근 실리콘밸리의 거대 AI 기업들이 수십억 달러 규모의 하드웨어 인프라 투자에 대한 수익성을 증명하라는 압박에 시달리는 동안, 중국의 DeepSeek는 정반대의 전략으로 시장의 판도를 뒤흔들고 있다. DeepSeek는 자사 주력 모델인 V4 Pro의 가격을 기존 대비 75% 낮추겠다고 발표하며, 사실상 서구권 AI 기업들이 구축해 온 고비용 인프라 모델에 정면으로 도전장을 내밀었다.

이 변화는 단순히 가격표 하나가 바뀐 수준이 아니다. Anthropic의 Claude Sonnet이나 OpenAI의 GPT 5.5-Med와 비교했을 때, DeepSeek의 모델은 입력 비용은 7배, 출력 비용은 17배나 저렴하다. 특히 가벼운 모델인 V4 Flash는 입문용 모델 대비 최대 25배까지 가격 경쟁력을 갖췄다. 기업들이 AI를 활용해 복잡한 작업을 수행하는 자율 에이전트를 본격적으로 배치하기 시작한 지금, 이러한 비용 절감은 기술 선택의 기준을 '최고 성능'에서 '효율적인 가성비'로 빠르게 옮겨놓고 있다. 지금 실리콘밸리에서는 단순히 모델의 똑똑함만으로는 더 이상 기업의 지갑을 열 수 없는 상황이 벌어지고 있다.

75% 가격 인하와 오픈 웨이트 전략의 실체

주말 사이 업데이트된 공지 하나가 실리콘밸리 AI 기업들이 쌓아온 비용 구조를 순식간에 무력화했다. 딥시크(DeepSeek)는 주력 모델인 V4 Pro의 가격을 75% 영구 인하하며 시장의 가격 기준선을 완전히 무너뜨렸다. 입력 비용은 앤스로픽의 클로드 소네트나 오픈AI의 GPT 5.5-Med보다 7배 저렴하고, 출력 비용은 17배나 낮다. 가벼운 모델인 V4 Flash 역시 클로드 하이쿠 같은 보급형 모델보다 10배에서 25배 더 싸다. 가격을 낮췄는데 성능은 그대로다. 코딩 작업 능력을 측정하는 SWE-bench Verified에서 80.6%, 고난도 추론 지표인 MMLU-Pro에서 87.5점을 기록하며 서구권 최상위 모델들과 어깨를 나란히 했다. 거대 자본을 투입해 인프라를 구축한 서구권 랩들에겐 매우 위협적인 공격이다.

비용을 이 정도로 낮출 수 있었던 핵심은 하드웨어와 소프트웨어를 동시에 최적화한 캐시 효율화에 있다. 캐시는 자주 쓰는 데이터를 임시 저장해 두는 공간이다. 딥시크는 이 캐시를 읽는 비용을 서구권 클라우드 대비 87배나 저렴하게 구현했다. 매번 전체 데이터를 다시 읽지 않고 저장된 조각만 빠르게 꺼내 쓰는 구조를 극대화한 결과다. 구체적인 가격표를 보면 100만 토큰당 표준 입력 비용은 0.435달러, 출력은 0.87달러다. 특히 프리픽스 캐시 읽기 비용은 0.003625달러까지 낮췄다. 이는 데이터 처리 비용의 바닥을 완전히 낮춘 수준이다. 시장에 강력한 가격 하한선을 그어버린 셈이라, 중국의 스마트폰 제조사 샤오미는 최근 도입한 MiMo 아키텍처의 가격 체계를 딥시크 수준으로 즉시 맞추며 대응했다.

전략의 정점은 모델의 설계도를 공개하는 오픈 웨이트(open-weight, 모델의 가중치 값을 공개해 누구나 내려받아 사용할 수 있게 하는 방식) 방식이다. V4 Pro와 V4 Flash 모두 제약이 거의 없는 MIT 라이선스로 공개해 기업이 자신의 서버에 직접 설치해 쓸 수 있게 했다. 외부 서버로 데이터를 보내지 않아도 되니 보안 우려를 덜면서 제어권은 완전히 가져가는 셈이다. 기술 팀은 작업 성격에 따라 모델을 나누어 쓴다. 단순하고 빠른 반복 작업이나 다단계 자율 에이전트 업무는 V4 Flash에 맡기고, 깊은 사고가 필요한 복잡한 추론은 V4 Pro가 담당하게 설계한다. 이렇게 모델을 이원화해 운영하면 전체 인프라 비용을 극단적으로 아끼면서도 성능은 유지할 수 있다. 예산 압박이 심해진 기업들에게는 실질적인 비용 절감의 돌파구가 된다.

자율 에이전트 시대, 기업의 인프라 위기

우버의 개발팀은 올해 1월부터 4월까지 단 4개월 만에 클로드 코드와 커서에 배정된 2026년 전체 예산을 모두 써버렸다. 엔지니어들이 토큰을 너무 많이 사용하면서 투입 비용 대비 결과물이 부족해 더 이상 예산 집행을 정당화하기 어려운 수준에 이른 것이다. 핀터레스트는 아예 전략을 바꿨다. 알리바바의 오픈소스 모델인 큐웬을 가져와 자사만의 취향 그래프(사용자 선호도 데이터 맵)로 추가 학습시켜 비용을 90%나 줄이면서도 성능은 최상위 모델 수준으로 유지했다. 기업들이 AI를 단순한 채팅 도구가 아니라 실제 서비스의 핵심 엔진으로 적용하면서 비용이라는 현실적인 벽에 부딪히기 시작했다.

개발자들이 여러 AI 모델을 쉽게 비교하고 갈아타며 사용할 수 있게 돕는 오픈라우터의 수치는 이 흐름을 명확히 보여준다. 최근 일주일 동안 딥시크 V4 플래시 모델의 토큰 사용량은 48% 급증하며 사용량 1위에 올랐다. 딥시크의 상위 3개 모델은 일주일 동안 약 6조 개의 토큰을 처리하며 경쟁사들을 압도했다. 반면 오픈에이아이의 프리미엄 모델인 GPT-5.5는 사용량 15위까지 밀려나며 4,700억 개의 토큰을 처리하는 데 그쳤다. 성능이 조금 낮더라도 가격이 압도적으로 저렴하고 속도가 빠른 모델로 실무 데이터 파이프라인이 빠르게 옮겨가고 있다.

기업들은 이제 하나의 모델에 의존해 발생하는 종속성 위험을 피하고 여러 모델을 섞어 쓰는 방식으로 생존 전략을 짠다. 벤처캐피털 앤드리슨 호로위츠의 분석에 따르면, 기업들은 평균 14개의 모델을 동시에 돌리며 작업의 난이도에 따라 가장 싼 모델로 연결하는 가격 라우팅(price-routing)을 수행한다. 단순한 작업은 저렴한 모델에, 깊은 추론이 필요한 작업은 고가 모델에 배분해 전체 비용을 낮추는 방식이다. 이러한 흐름에 맞춰 엔비디아, 구글, 스노우플레이크 등이 참여한 오픈라우터는 최근 1억 1,300만 달러의 시리즈 B 투자를 유치했다. 비용 최적화가 단순한 지출 절감을 넘어 기업 AI 인프라의 핵심 설계 원칙이 됐다.

비용 위기를 가속하는 주범은 스스로 생각하고 행동하는 자율 에이전트의 확산이다. 에이전트는 사람이 일일이 명령하지 않아도 몇 시간 동안 코드 저장소를 뒤지고 데이터 레이크(방대한 원시 데이터 저장소)를 읽으며 작업을 반복한다. 이 과정에서 외부 도구를 계속 호출하고 방대한 이전 대화 내용을 반복해서 읽는 재귀적 루프를 돌기 때문에 토큰 소모량이 기하급수적으로 늘어난다. 벤처비트의 2026년 1분기 조사 결과, 기업의 AI 선택 기준 중 토큰당 비용의 중요도는 1월 25.4%에서 3월 36.7%로 급격히 상승했다. 성능만큼이나 비용 효율성이 기업의 서비스 지속 가능성을 결정하는 핵심 지표가 된 셈이다.

딥시크가 던진 저가 공세는 단순한 가격 경쟁을 넘어 실리콘밸리가 쌓아온 비용 공식에 균열을 냈다. 막대한 자본과 하드웨어 투입으로 성능을 올리던 기존 방식이 더 이상 유일한 정답이 아님을 증명한 셈이다. 효율적인 학습 구조로 비용을 낮춘 모델이 시장에 진입하면서 AI 서비스의 진입 장벽은 빠르게 허물어지고 있다. 결국 AI 패권은 모델의 크기가 아니라, 최소 비용으로 최대 성능을 뽑아내는 효율성 싸움으로 바뀐다.