화요일 오전, 어느 기업의 CFO(최고재무책임자) 책상 위.

월 20달러짜리 Claude Pro(클로드 프로) 구독 영수증과 함께, 이를 API(응용 프로그램 인터페이스) 단가로 환산한 실제 토큰 소모 비용 보고서가 놓여 있다. 보고서 속 숫자는 구독료의 10배가 넘는 수백 달러를 가리키며, 실제 운영 비용과 청구 금액 사이의 거대한 간극을 드러낸다.

이런 풍경이 전 세계 엔터프라이즈 AI 도입 현장에서 곧 현실이 된다.

월 20달러 구독료와 API 단가의 10배 괴리

Claude Pro의 월 구독료는 20달러다. 반면 API 단가는 전혀 다른 숫자를 보여준다. Sonnet 4.6의 경우 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러가 책정되어 있다. 고성능 모델인 Opus 4.6은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러에 달한다. 사용자가 구독 모델을 통해 누리는 혜택과 실제 API 호출 비용 사이에는 단순한 오차를 넘어선 거대한 간극이 존재한다.

실제 사용량을 환산하면 이 괴리는 더욱 심화된다. 매일 몇 시간씩 방대한 문서를 업로드하고 보고서를 작성하며 복잡한 데이터를 분석하는 지식 노동자의 경우, 주당 수백만 토큰을 소모하는 것이 일반적이다. 이를 API 단가로 환산하면 1인당 월 비용은 최소 200달러에서 최대 400달러 수준으로 치솟는다. 일부 헤비 유저의 경우 이 수치를 훨씬 상회하는 연산 자원을 사용한다. 그러나 기업은 여전히 인당 20달러의 고정 구독료만 지불하고 있다. 이는 AI 기업들이 실제 운영 비용을 감수하면서까지 초저가 모델을 유지하고 있음을 의미한다.

이러한 손실 구조는 특정 기업의 개별적 사례가 아니라 업계 전반에서 나타나는 공통된 현상이다. 마이크로소프트의 깃허브 코파일럿(GitHub Copilot, AI 기반 코드 자동 완성 도구) 역시 사용자당 월 20달러 이상의 손실이 발생하는 것으로 보고되었다. 특히 연산 비용이 월 80달러에 육박하는 파워 유저의 경우, 10달러 내외의 구독료와 실제 비용 사이의 격차는 더욱 극명하게 드러난다. 주목할 점은 앤스로픽의 비용 구조다. 분석 결과 앤스로픽은 구독 매출 1달러를 올리기 위해 약 8달러의 연산 비용을 소모하고 있는 것으로 나타났다. 매출보다 비용이 8배나 더 많은 기형적인 경제 구조를 유지하고 있는 셈이다.

AI 기업들이 취하고 있는 전략의 핵심은 전례 없는 규모의 손실 유도 상품 운영에 있다. 기업 고객이 AI를 영구적으로 저렴한 유틸리티로 인식하게 만들어, 조직의 핵심 워크플로우 깊숙이 도구를 침투시키는 것이 일차적 목표다. 일단 마케팅, 엔지니어링, 리서치 등 전사적 업무 프로세스가 특정 모델에 종속되면, 향후 가격 체계가 현실화되더라도 사용자는 쉽게 이탈하지 못하는 락인 효과가 발생한다. 현재의 20달러 구독료는 지속 가능한 비즈니스 모델의 결과물이 아니라, 시장 점유율과 사용자 데이터를 확보하기 위해 지불하는 일종의 마케팅 비용으로 해석하는 것이 타당하다.

챗봇에서 에이전트로: 토큰 소모 구조의 근본적 변화

챗봇 단계에서의 토큰 소모는 예측 가능한 범위 내에서 관리되었다. 사용자가 구체적인 질문을 던지면 모델이 그에 상응하는 답변을 내놓는 단순 질의응답 구조에서는 한 세션당 수천에서 수만 토큰 정도가 소모되는 수준이었다. 이는 서비스 제공자가 정액제 모델을 통해 비용을 어느 정도 통제할 수 있는 범위였다. 그러나 자율적으로 작동하는 에이전트 AI의 등장은 이 계산법을 근본적으로 바꿨다. Claude Code(클로드 코드, 앤스로픽의 코딩 에이전트)와 같은 도구는 사람이 매번 지시를 내리지 않아도 스스로 목표를 설정하고 장기간 자율적으로 세션을 수행하며 토큰을 소모한다. 실제 일부 사용자는 5시간 분량의 할당량 윈도우를 90분 만에 모두 소진하는 사례를 보고하고 있다. 이는 에이전트가 내부적으로 수많은 추론 루프를 돌며 스스로 수정하고 보완하는 과정을 반복하기 때문이다.

정액제 모델의 경제적 붕괴는 이미 구체적인 일정으로 나타나고 있다. GitHub Copilot(깃허브 코파일럿, 마이크로소프트의 AI 코딩 보조 도구)은 2026년 6월 1일부터 사용량 기반 과금(Usage-based billing) 방식으로 전환한다고 공식 발표했다. 기존의 정액제 기반 프리미엄 요청 방식이 에이전트 기반의 워크로드 증가로 인해 더 이상 유지 불가능한 수준에 도달했음을 인정한 결과다. 깃허브는 에이전트 방식의 사용이 기본값이 되어가고 있으며, 이에 따라 컴퓨팅 및 추론 수요가 급증하고 있다고 설명했다. 주목할 점은 OpenAI의 CEO 샘 알트먼(Sam Altman) 역시 OpenAI가 이제 AI 추론 기업(AI inference company)이 되어야 한다고 공개적으로 언급했다는 사실이다. 이는 에이전트 시대의 AI 서비스가 단순한 인터페이스 제공을 넘어, 폭증하는 추론 비용을 효율적으로 관리하고 회수하는 완전히 다른 경제적 모델을 구축해야 함을 의미한다.

단일 에이전트를 넘어 여러 AI 인스턴스가 병렬로 협업하는 에이전트 팀(Agent Teams) 구조는 토큰 소모량을 기하급수적으로 가속한다. 개발자가 단일 프로젝트에 투입하여 3~4개의 코딩 에이전트를 동시에 구동할 때 발생하는 토큰 소모량은 단순한 채팅 세션의 3~4배 수준에서 끝나지 않는다. 각 에이전트가 서로의 결과물을 검토하고 피드백을 주고받는 상호작용 과정이 추가되면서, 실제 소모량은 단순 채팅 대비 한 자릿수 이상의 배수, 즉 오더 오브 매그니튜드(Order of magnitude) 단위로 급증한다. 반면 사용자가 지불하는 구독료는 여전히 월 20달러 수준의 고정 비용에 머물러 있다. 결과적으로 공급자가 부담하는 실제 추론 비용과 사용자가 지불하는 구독료 사이의 간극은 에이전트화(Agentic shift)를 통해 임계점에 도달했다. 이는 기존의 구독 기반 비즈니스 모델이 에이전트 AI의 작동 방식과 정면으로 충돌하고 있음을 보여준다.

IPO 압박과 2026년 엔터프라이즈 과금 체계의 재편

오라클은 단일 회계연도에 430억 달러의 부채를 조달하여 OpenAI의 데이터 센터 구축에 투입했다. 이는 AI 모델의 고도화와 추론 능력 확장이 천문학적인 자본 투입 없이는 불가능하다는 사실을 입증하는 수치다. OpenAI는 2029년까지 누적 현금 소모액이 1,150억 달러에 달할 것으로 예상하고 있으며, 2030년까지 연산 비용으로 총 6,650억 달러를 투입할 계획을 세웠다. 반면 현재 OpenAI의 연간 매출은 약 250억 달러 수준에 불과하다. 인프라 구축에 투입되는 비용과 실제 매출 사이의 간극은 단순한 운영 손실을 넘어선 구조적 불균형 상태에 놓여 있다.

앤스로픽의 매출 성장 지표는 외견상 매우 가파르다. 2025년 말 90억 달러였던 연간 환산 매출은 최근 300억 달러를 돌파하며 빠르게 확장했다. 그러나 이러한 외형 성장이 곧바로 비즈니스 모델의 지속 가능성을 보장하지는 않는다. 그동안 AI 랩들은 시장 점유율 확보를 위해 추론 비용의 상당 부분을 직접 부담하는 손실 리더 전략을 취해왔다. 하지만 상장(IPO)을 앞둔 시점에서 공적 시장의 요구는 달라진다. 공개 시장의 투자자와 분석가들은 더 이상 무제한적인 벤처 캐피털의 수혈이 아닌, 명확한 단위 경제성과 영업 이익률, 그리고 구체적인 수익 창출 경로를 요구하기 때문이다.

과금 체계의 재편은 이미 구체적인 가격 티어의 상향 조정으로 시작되었다. OpenAI는 월 100달러의 Pro 티어를, 앤스로픽은 월 200달러의 Max 티어를 도입하며 기존의 20달러 정액제 체계를 빠르게 해체하고 있다. 이는 단순한 가격 인상이 아니라, 사용량 기반 과금 체계로 전환하기 위한 사전 단계의 가격 현실화 과정이다. 주목할 점은 기업들의 실제 지출 규모다. KPMG의 Q1 2026 AI Quarterly Pulse에 따르면 미국 기업들의 향후 12개월 AI 예상 지출액 평균은 2억 700만 달러로 집계되었다. 이는 AI 비용이 더 이상 재무제표상의 단순한 잡비나 소액의 소프트웨어 구독료 수준에 머물지 않음을 의미한다.

개발팀과 재무팀이 직면할 실질적인 변화는 비용의 예측 불가능성이다. 정액제 기반의 AI 도입은 비용을 고정비로 처리하게 만들었으나, 사용량 기반 과금은 AI를 가변비의 영역으로 이동시킨다. 특히 에이전트 기반의 워크플로우가 확산됨에 따라 토큰 소비량은 기하급수적으로 증가하며, 이는 곧바로 청구서의 숫자로 직결된다. 과거에는 단일 계정의 구독료만 계산하면 되었으나, 이제는 각 팀의 실제 토큰 소비량을 실시간으로 감사하고 예산을 배정해야 하는 운영 부담이 추가된다. 결국 기업들은 AI를 저렴한 유틸리티로 취급하던 관성에서 벗어나, 엔지니어의 인건비에 육박하는 거대한 인프라 비용 항목을 재무 계획에 반영해야 하는 상황에 놓이게 된다.