발표에서 확인된 핵심 사실
월간 토큰 사용량에 1,500달러라는 명확한 상한선이 그어지면서, 생성형 AI를 업무에 도입한 기업들의 비용 관리 기조가 실질적인 통제 국면으로 접어들었다. 우버(Uber)는 최근 직원들이 사용하는 AI 코딩 도구별로 이 같은 비용 제한을 도입했다. 해당 정책은 Cursor(코드 편집기 기반 AI 도구)나 Anthropic(앤스로픽)의 Claude Code(클로드 코드)와 같은 에이전트형 코딩 소프트웨어에 적용된다. 기업이 AI 도구별로 구체적인 예산 가이드라인을 설정해 실사용 비용을 직접 제어하기 시작한 사례다.
이러한 제한은 개인 구독자에게 제공되는 저렴한 보조금 플랜이 대규모 기업에는 적용되지 않는다는 현실을 반영한다. 개인 사용자가 월 100달러 수준으로 이용할 수 있는 서비스도 기업 환경에서는 훨씬 높은 토큰 비용을 발생시키기 때문이다. 결과적으로 우버의 엔지니어는 도구 2개를 사용할 경우 연간 최대 36,000달러의 AI 예산을 배정받게 되며, 이는 미국 우버 소프트웨어 엔지니어 평균 연봉인 330,000달러의 약 11%에 해당하는 금액이다. 기업은 이제 AI 도입의 효율성을 측정할 때 개별 도구의 실질적인 토큰 소모량을 핵심 지표로 삼고 있다.
기존 방식과 달라진 지점
무스타파 술레이만(Mustafa Suleyman)이 이끄는 팀이 6개월간의 개발 끝에 MAI(Microsoft AI) 모델 시리즈를 공개하며 마이크로소프트는 독자적인 AI 생태계 구축에 속도를 냈다. 이는 기존 OpenAI 모델에 대한 의존도를 낮추고 자사 제품군 내에서 자체 모델의 비중을 높이려는 전략적 전환이다. 외부 의존도를 줄이는 동시에 기술적 자립을 꾀하려는 기술 기업들의 움직임이 가시화되고 있다.
AI 기업들의 수익 모델 역시 기존의 구독형 좌석(Seat) 기반에서 API를 통한 토큰 소비량(Token) 중심으로 재편되고 있다. 이는 사용자가 AI를 더 많이 활용할수록 기업의 매출이 직결되는 구조로, 기업들은 최근 API 비용 급증으로 인한 'AI 스티커 쇼크(Sticker Shock)'에 직면했다. 이러한 비용 압박은 기업들이 AI 도입의 효율성을 정밀하게 측정해야 하는 직접적인 원인이 되었다.
기술적 효율성 측면에서는 GPT-5.5가 Opus 4.7 대비 토큰 사용량은 절반 수준, 작업 완료 시간은 절반 이하, 비용은 약 3분의 1 수준으로 나타나며 코딩 작업의 기준점이 되었다. 한편 구글은 외부 테스트 플랫폼인 Eleuther AI 아레나에 Gemini 3.2 2 flash를 공개하며 기존 Gemini 3 flash 대비 SVG 생성 성능 등을 실환경에서 검증하고 있다. 모델 간의 성능과 비용 효율이 구체적인 지표로 드러나면서 기업들의 도구 선택 기준 또한 더욱 까다로워지고 있다.
구글이 내부적으로 개인용 AI 에이전트 'Remy'를 테스트
직원 한 명의 업무 생산성이 기업 전체의 비용 효율을 결정짓는 시대가 도래했다. 구글은 현재 내부 직원들을 대상으로 'Remy'라는 이름의 개인용 AI 에이전트를 테스트하고 있다. 이는 단순한 챗봇 기능을 넘어 Gmail, Docs, Calendar 등 구글 생태계 전반에 깊숙이 통합되어 사용자를 대신해 복잡한 워크플로우를 처리하는 24/7 개인 비서다. 현재 구글은 자사 직원들만 접근 가능한 버전의 Gemini 앱을 통해 이 도구를 직접 사용해보는 도그푸딩(dog fooding) 단계를 거치고 있다.
이러한 에이전트의 성능을 객관적으로 측정하려는 시도도 이어지고 있다. 데이터 커브(Data Curve)는 기존 벤치마크의 고질적 문제인 데이터 오염과 과도하게 작은 태스크를 해결하기 위해 새로운 코딩 벤치마크인 DeepSWE를 발표했다. 실제 엔지니어링 작업과 유사한 환경을 제공하는 이 평가는 모델의 장기적인 코딩 수행 능력을 측정하는 데 초점을 맞춘다. 초기 테스트 결과, GPT-5.5가 70%의 점수로 1위를 차지했으며 GPT-5.4(56%)와 Opus 4.7(54%)이 그 뒤를 이었다.
상위 모델들이 높은 점수를 기록한 핵심 비결은 '자기 검증(Self-verification)' 능력에 있었다. 데이터 커브의 분석에 따르면 GPT-5.4와 Opus 4.7은 작업 중 스스로 테스트 코드를 작성해 결과물을 검증하는 비율이 80%를 넘었다. 반면 중국 모델들은 상대적으로 낮은 성적을 보였는데, Kimi가 24%로 가장 높은 점수를 기록했고 DeepSeek V4는 8%에 그쳤다. 이는 에이전트 도구가 단순 프로토타입을 넘어 실제 프로덕션 환경에 투입되는 시점에서, 모델 스스로 오류를 수정하는 능력이 실무적 성패를 가르는 척도가 되었음을 보여준다.
로봇 학습 데이터 병목을 겨냥한 해법
기업이 지불하는 AI 구독료는 개별 계정 단위로는 작아 보이지만, 조직 전체 규모로 합치면 예산의 상당 부분을 차지한다. 우버(Uber)는 엔지니어가 사용하는 에이전트형 코딩 도구에 대해 도구당 월 1,500달러의 토큰 비용 상한선을 설정했다. 엔지니어 1인당 도구 2개를 사용한다고 가정하면 연간 최대 36,000달러가 소요되는데, 이는 미국 우버 소프트웨어 엔지니어 중간 연봉인 330,000달러의 약 11%에 이르는 금액이다. 기업은 이제 AI 도구의 생산성 대비 비용 효율을 구체적인 예산 지표로 관리하기 시작했다.
AI 도입이 기업의 구조적 비효율을 가리는 희생양으로 활용되고 있다는 지적도 나온다. 듀오링고(Duolingo), 핀터레스트(Pinterest), 메타(Meta) 등은 인력 감축의 명분으로 AI를 언급했으나, 실제로는 제로 금리 시대에 과도하게 채용한 인력이 비대해진 것이 근본 원인이라는 분석이다. 기업들이 AI를 통해 인건비를 절감하려는 시도와 별개로, 내부의 비효율적인 채용 구조를 정리하는 과정에서 AI가 명분으로 사용되고 있다.
이러한 비용과 효율의 틈새에서 로컬 환경을 활용한 기술적 대안이 주목받는다. 언슬로스 스튜디오(Unsloth Studio)는 기존 파인튜닝의 난제였던 데이터셋 구축과 복잡한 구현 과정을 해결하는 오픈소스 프로젝트다. 사용자는 자신의 컴퓨터에서 오프라인으로 모델을 학습시킬 수 있으며, 올라마(Ollama)나 LM 스튜디오(LM Studio)처럼 로컬에 다운로드된 모델을 구동하고 즉시 대화하며 성능을 테스트하는 기능도 지원한다. 데이터 커브(Data Curve)의 경우 딥SWE(DeepSWE) 솔루션을 깃허브(GitHub) 등에 공개하지 않는 방식을 택해 벤치마크 데이터의 오염을 방지하고 있다.
물리적 로봇 분야에서도 학습 데이터와 제어 방식의 변화가 가시화되고 있다. 보스턴 다이내믹스(Boston Dynamics)의 새로운 아틀라스(Atlas) 업그레이드 버전은 냉장고를 들어 올릴 수 있을 정도로 힘이 강화되었고, 동작 방식 또한 이전과 확연히 다른 수준으로 개선되었다. 유니트리(Unitry) 로봇은 음성 명령 기능을 추가하여 사용자가 직접 말로 로봇을 제어할 수 있게 만들었다. 한편, 자기 진화형 AI(Evolvable AI)는 스스로를 복제하고 적응하며 확산하는 특성 때문에 AGI보다 더 통제하기 어려운 잠재적 위협으로 거론되고 있다.
마이크로소프트는 최첨단 모델을 추격하는 대신 36개월 뒤처진
사용자당 매달 지불하는 구독료는 가벼워 보이지만, 조직 전체로 스케일업하는 순간 고정비의 상당 부분을 차지하는 인건비성 지출로 돌변한다. 우버(Uber)는 2025년에 설정한 2026년 AI 예산을 불과 4개월 만에 모두 소진했다. 코딩 에이전트와 같이 토큰 소모량이 많은 도구의 인기를 사전에 예측하지 못한 결과다. 현재 우버는 Cursor와 Claude Code 같은 에이전트형 코딩 소프트웨어 사용 시 도구당 월 1,500달러의 토큰 비용 상한선을 설정했다. 엔지니어 1인당 연간 최대 36,000달러를 배정했는데, 이는 미국 우버 소프트웨어 엔지니어 평균 연봉인 330,000달러의 약 11%에 달하는 규모다.
마이크로소프트는 최첨단 모델을 추격하는 대신 3~6개월 뒤처진 모델을 활용하는 오프 프론티어(Off-frontier) 전략을 채택했다. 무스타파 술레이만이 언급한 이 독트린은 최고 성능의 모델을 직접 개발하는 대신, 이미 검증된 기술을 늦게 도입해 막대한 컴퓨팅 비용을 절감하는 방식이다. 이는 기업이 최신 모델을 무작정 도입하기보다 비용 효율을 측정하고 예산을 산정해야 하는 현실적인 기준점이 된다.
파인튜닝은 100배 더 큰 모델을 능가하는 소형 LLM(거대언어모델)을 구현하거나 API 비용을 거의 제로에 가깝게 줄이는 대안으로 떠올랐다. 전직 엔비디아 엔지니어와 그의 형제가 개발한 Unsloth Studio는 Llama와 Qwen 모델의 버그를 직접 수정했던 경험을 바탕으로 모델 최적화 전문성을 제공한다. 한편, 구글의 Remy 에이전트는 사용자의 프롬프트를 단순히 처리하는 수준을 넘어, 선호도를 학습하고 복잡한 업무를 백그라운드에서 능동적으로 수행하는 디지털 비서 역할을 지향한다.
AI 모델 기업들의 수익 모델은 토큰 기반의 폭발적인 성장세를 기록 중이다. Anthropic은 2025년 초 30억 달러였던 연간 반복 매출(ARR)을 1년 만에 470억 달러까지 끌어올렸다. 이와 관련해 버니 샌더스 상원의원은 프론티어 AI 연구소들이 상장할 때 50%의 일회성 주식 세금을 부과하는 방안을 제안했다. 샘 알트먼은 이 세금 이슈를 논의하기 위해 샌더스 의원과 회동할 예정이다.
우버는 Cursor나 Claude Code와 같은 에이전트형 코딩 도구 사용 시 계정당 월 1,500달러의 토큰 비용 상한선을 설정했다. 이는 엔지니어 1인당 연간 최대 36,000달러의 AI 예산을 배정하는 것으로, 미국 우버 소프트웨어 엔지니어 평균 연봉인 330,000달러의 약 11%에 달하는 규모다. 기업은 이제 AI 도입의 성패를 생산성 향상치가 아닌, 도구당 토큰 소모량과 연봉 대비 예산 비중이라는 구체적인 비용 효율 지표로 판가름하고 있다.



