가트너(Gartner, IT 리서치 기업)는 2030년까지 1조 개의 매개변수를 가진 거대언어모델(LLM)의 추론 비용이 2025년 대비 90% 하락할 것이라고 전망했다. 개별 부품의 가격이 급락하며 보급형 제품이 쏟아지는 상황과 유사하다. 그런데 이러한 단가 하락이 기업의 전체 AI 지출 감소로 이어지지는 않고 있다.

단가는 떨어지고 있지만 마이크로소프트(Microsoft)는 최근 엔지니어들에게 제공하던 클로드 코드(Claude Code, Anthropic의 코딩 도구) 라이선스를 대부분 취소하고 깃허브 코파일럿 CLI(GitHub Copilot CLI, 터미널 기반 AI 코딩 보조 도구)로 전환했다. 우버(Uber) 역시 2026년 AI 코딩 도구 예산을 단 4개월 만에 모두 소진하며 비용 통제에 들어갔다. 기업들이 생산성 향상을 위해 AI 사용을 강하게 독려해 왔으나, 실제 청구서에 찍힌 컴퓨팅 비용이 인건비를 상회하는 역전 현상이 발생하고 있기 때문이다.

MS의 클로드 코드 라이선스 취소와 우버의 예산 조기 소진

수천 명의 개발자와 프로젝트 매니저, 디자이너 등 전 직군에 클로드 코드 접근 권한을 개방한 지 불과 6개월 만에 마이크로소프트가 라이선스 회수 조치를 단행했다. 대신 내부 인력을 깃허브 코파일럿 CLI(Command Line Interface, 명령줄 인터페이스)로 전환 배치했다. 초기에는 AI를 활용한 코딩 실험과 생산성 향상을 적극적으로 장려하며 도구의 보급 속도를 높였다. 그러나 예상보다 훨씬 빠르게 확산된 사용 규모가 비용 부담으로 작용하며, 결국 엔지니어들이 의존하던 도구를 회수하는 방향으로 선회했다.

우버(Uber)의 CTO 프라빈 네팔리 나가(Praveen Neppalli Naga)는 2026년으로 책정된 AI 코딩 도구 예산이 단 4개월 만에 전액 소진되었다고 밝혔다. 주목할 점은 이러한 예산 고갈이 회사의 의도적인 독려 전략에서 비롯되었다는 사실이다. 우버는 내부 리더보드를 구축해 팀별 AI 도구 사용량을 순위로 매기는 방식을 도입하며 직원들의 사용량을 극대화하도록 유도했다. 생산성 증대를 위해 사용량을 경쟁시킨 전략이 결과적으로는 예산의 조기 소진이라는 역효과를 낳은 셈이다.

개별 엔지니어의 도구 사용 비용은 통제하면서도, 마이크로소프트와 앤스로픽(Anthropic)의 전략적 관계는 별개의 궤적으로 유지되고 있다. 마이크로소프트는 앤스로픽에 최대 50억 달러를 투자하고 파운드리(Foundry, AI 모델 구축 및 배포 환경) 고객에게 클로드 모델 접근권을 제공하는 파운드리 딜을 그대로 유지한다. 앤스로픽 또한 애저(Azure, 마이크로소프트의 클라우드 플랫폼) 컴퓨팅 용량을 구매하기로 한 300억 달러 규모의 약정을 이행하고 있다. 이는 개별 엔지니어의 도구 사용 비용이라는 운영 지출과 인프라 및 지분 투자라는 전략적 자산 운용이 철저히 분리되어 관리되고 있음을 시사한다.

토큰 기반의 과금 체계가 적용되면서 AI 도구의 사용량과 정교함이 늘어날수록 지불 비용이 정비례해 상승하는 결과가 나타났다. 기업들이 생산성 향상을 위해 AI 에이전트 도입을 서두르며 토큰 소비량을 극대화하는 전략을 취했지만, 이는 곧바로 감당하기 어려운 비용 폭증으로 이어졌다. 빅테크 기업들은 AI가 가져다주는 생산성 이득과 실제 청구되는 컴퓨팅 비용 사이의 괴리를 메우기 위해 사용량 제한이라는 현실적인 통제책을 선택하고 있다.

토큰 단가 하락 vs 에이전트 AI의 소비량 폭증

2030년의 토큰 소비량은 현재의 24배 수준인 120 quadrillion(경) 개에 달할 것이라고 골드만삭스는 전망했다. 이는 단순한 챗봇 활용을 넘어 스스로 판단하고 행동하는 에이전트 AI(Agentic AI, 자율적으로 작업을 수행하는 AI)의 도입이 가속화되기 때문이다. 특히 토큰 기반 과금 체계에서 사용자가 단 한 번의 요청을 보내더라도 AI 에이전트는 이를 세부 과제로 분해하고, 적절한 도구를 선택해 호출하며, 도출된 결과물을 스스로 검증하고 수정하는 반복 과정을 거친다. 이 과정에서 발생하는 내부 토큰 소비는 기존의 단발성 질의응답 방식과는 완전히 다른 규모의 자원을 요구하며 전체 소비량을 끌어올린다.

가트너가 2030년까지 1조 매개변수 LLM(Large Language Model, 거대언어모델)의 추론 비용이 2025년 대비 90% 하락할 것으로 예측했음에도, 에이전트 모델의 반복적인 추론 루프는 이 하락분을 빠르게 상쇄한다. 하드웨어의 효율성이 개선되고 모델 경량화 기술이 적용되면서 연산 비용 자체는 낮아지는 구조다. 1조 개 이상의 매개변수를 가진 고성능 모델일수록 연산 부하가 크지만, 기술 발전이 이를 상쇄하며 단가를 낮추는 흐름이다. 그러나 표준 모델은 사용자 입력에 대해 즉각적인 응답을 내놓는 선형적 구조인 반면, 에이전트 모델은 목표 달성을 위해 수십 차례의 내부 추론 루프를 수행하며 작업당 훨씬 많은 토큰을 소비한다.

토큰당 가격이 90% 낮아지더라도 작업 하나를 완수하는 데 투입되는 토큰 양이 수십 배 증가하면 기업의 총비용은 오히려 상승하는 역설이 발생한다. 가트너는 저렴해진 토큰 가격이 곧 기업용 AI 도입 비용의 하락으로 직결되지는 않을 것이라고 분석했다. 에이전트 모델의 소비 증가 속도가 단가 하락 속도를 압도하며 총비용을 밀어 올리기 때문이다. 여기에 AI 제공업체가 인프라 비용 하락분을 소비자에게 온전히 전가하지 않고 마진으로 흡수할 가능성까지 더해지면, 실제 기업이 체감하는 추론 비용의 부담은 더욱 가중될 수밖에 없다.

CPO(Chief Product Officer, 최고제품책임자)들은 이제 범용 토큰 가격 하락이라는 수치적 착시와 실제 운영 비용 사이의 괴리라는 리스크에 직면했다. 가트너는 범용 토큰의 가격 하락이라는 수치적 착시를 고도의 추론 능력이 보편화되는 것으로 오해해서는 안 된다고 경고한다. 단순한 텍스트 생성 비용은 낮아질 수 있으나, 복잡한 비즈니스 로직을 완결 짓는 프런티어 추론의 비용은 여전히 높은 수준을 유지할 가능성이 크다. 결과적으로 에이전트 AI가 가져올 생산성 혁신이라는 장밋빛 전망과 실제 운영 단계에서 청구될 막대한 컴퓨팅 비용 사이의 괴리는 더욱 심화될 것으로 보인다.

'인건비 < 컴퓨팅 비용' 역전이 가져올 AI 에이전트 전략의 수정

엔비디아(Nvidia)의 브라이언 카탄자로 부사장은 최근 인터뷰에서 컴퓨팅 자원 비용이 직원 인건비를 훨씬 상회하는 구조로 변했다고 밝혔다. 과거 소프트웨어 개발이 인적 자원 중심의 노동 집약적 산업이었다면, 이제는 모델 추론을 위한 연산 비용이 기업의 재무제표를 결정짓는 핵심 변수로 자리 잡은 것이다. 이러한 비용 구조의 역전은 무분별한 AI 도입이 오히려 기업의 수익성을 갉아먹을 수 있다는 경고를 담고 있다.

메타(Meta)의 '클로드노믹스(Claudeonomics)'나 아마존(Amazon)의 '톡슨맥스(toxenmaxx)'처럼 사용량을 경쟁시키는 문화가 여전하지만, 이는 우버의 사례처럼 예산 조기 소진이라는 부작용을 낳는다. 구성원들에게 AI 활용을 강제하는 분위기가 토큰 기반의 과금 체계와 결합하여 재무적 리스크로 이어진 셈이다. 우버(Uber)가 올해 AI 코딩 도구 예산을 4개월 만에 모두 소진한 사례는 이러한 전략이 가진 지속 불가능성을 단적으로 보여준다.

젠슨 황(Jensen Huang) 엔비디아 CEO가 제시한 '1인당 100개 에이전트'의 미래는 현재의 토큰 효율성으로는 막대한 비용 부담을 동반할 수밖에 없다. 가트너(Gartner)의 윌 소머 분석가는 범용 토큰의 가격 하락이 곧 최첨단 추론 능력의 민주화로 이어질 것이라는 낙관론을 경계했다. 그는 에이전트 모델이 일반 모델보다 작업당 훨씬 많은 토큰을 소비한다는 점을 지적하며, 단위 비용의 하락이 전체 컴퓨팅 비용의 감소를 보장하지 않는다고 분석했다. 결국 기업들은 AI 에이전트의 무조건적인 확대 배치보다, 비용 효율성을 정밀하게 제어하는 전략적 운용 능력을 갖추는 방향으로 선회할 것으로 보인다.