"You write code twice as quick now? Better hope you’ve halved your maintenance costs," he wrote. 프로그래머이자 작가인 제임스 쇼어(James Shore)가 해커뉴스(개발자 커뮤니티)에서 화제가 된 블로그 포스트를 통해 던진 경고다. 그는 AI가 제공하는 일시적인 속도 향상이 결국 영구적인 유지보수 굴레로 이어질 수 있음을 지적했다.

많은 개발자가 AI 코딩 도구에 의존하며 스스로의 가치가 두 배로 뛰었다고 믿는다. 하지만 기업의 관점에서 보면 이야기가 다르다. 토큰 사용량을 생산성의 지표로 삼는 '토큰맥싱(Tokenmaxxing, AI 사용 토큰 수를 생산성 대리 지표로 활용하는 경향)' 현상이 나타나면서, 실제 결과물보다 비용 지출이 먼저 급증하는 기현상이 벌어지고 있다. 속도는 빨라졌지만, 그 코드를 검토하고 수정하는 데 드는 비용이 상쇄되지 않는다면 이는 생산성 향상이 아니라 부채의 누적이다. 이제 업계는 AI가 짠 코드를 어떻게 관리하고, 인간 개발자의 역할은 어디까지 남겨둬야 하는지에 대한 냉정한 계산서를 받아 들고 있다.

METR의 경고와 아마존·우버의 '토큰맥싱' 비용 충격

연구원이 실험 대상자를 모집했지만 개발자들이 참여를 거부했다. AI 없이 작업하는 환경 자체를 받아들이지 못한 결과다. AI 연구소 METR(AI 모델 평가 및 연구소)은 2026년 2월 발표를 통해 대부분의 개발자가 제한적인 작업조차 AI 없이는 수행하기를 거부하는 현상을 확인했다. 도구에 대한 의존도가 임계점을 넘었다는 신호다. 2025년 METR이 진행한 연구에서는 오픈소스 개발자들이 작업을 직접 수행할 때와 AI를 사용할 때의 시간을 측정했다. AI가 코드 생성 속도는 높였으나 전체 작업 속도는 오히려 저하시켰다는 결과가 나왔다. 생성된 코드의 오류를 수정하고 AI를 제어하며 응답을 기다리는 시간이 추가로 투입되었기 때문이다. 개발자가 체감하는 생산성과 실제 작업 완료 시점 사이의 간극이 벌어지고 있다.

아마존 내부에서 운영하던 토큰 추적 리더보드 키로랭크(Kirorank)가 폐쇄됐다. 직원들이 AI 에이전트를 과다하게 사용하여 토큰 사용량을 늘리는 방식으로 성과를 조작했기 때문이다. 토큰 사용량을 생산성의 지표로 삼는 토큰맥싱(Tokenmaxxing) 경향이 비용 급증으로 이어졌다. AI 사용량이 곧바로 업무 효율로 연결되지 않는다는 사실이 내부 데이터로 증명된 셈이다. 단순히 많은 양의 토큰을 소비하는 행위가 코드의 완성도를 보장하지 않는다. 비용 지출은 기하급수적으로 늘었으나 실질적인 코드 품질이나 프로젝트 완성도는 비례하지 않았다. AI 도구의 사용 빈도가 성과 측정의 기준이 될 때 발생하는 전형적인 부작용이다.

우버는 2026년 한 해 AI 예산을 올해 첫 4개월 만에 모두 소진했다. 투입된 자본 규모에 비해 산출물은 미비했다. 앤드류 맥도널드(Andrew Macdonald) 우버 COO는 최근 팟캐스트에서 AI 지출이 프로젝트 수나 생산성의 측정 가능한 증가로 이어지지 않았다고 밝혔다. 예산 집행 속도는 빨랐으나 기업이 기대한 정량적 성과는 나타나지 않았다. 고비용의 AI 인프라 운용이 실제 비즈니스 가치 창출로 전환되지 못하는 병목 구간에 진입했다. 개발 현장에서는 AI가 필수 도구가 되었지만 경영진이 보는 재무제표에서는 비용 효율성 저하라는 상충하는 결과가 나타나고 있다. AI 도입이 가져온 속도 향상이 운영 비용의 폭증이라는 부채로 되돌아오는 시점이다.

인간 대비 1.7배 높은 오류율과 '주니어 수준' 에이전트의 한계

한 달 만에 판이 바뀌었다고 느낄 만큼 AI 코딩 도구의 침투 속도는 빠르지만, 그 이면의 비용 구조는 정반대로 흐르고 있다. 신뢰성 엔지니어링 에이전트 스타트업인 엔텔리전스 AI(Entelligence AI)의 CEO 아이스와리야 산카르는 기업이 사용하는 전체 토큰 중 44%가 AI가 스스로 생성한 버그를 수정하는 데 소모되고 있다는 데이터를 공개했다. 이는 AI가 코드 작성 속도를 높이는 동안, 그 결과물을 검증하고 오류를 바로잡는 데 드는 비용이 기하급수적으로 증가하고 있음을 의미한다.

코드 리뷰 도구 기업인 코드 래빗(Code Rabbit)의 분석 결과는 이러한 현상을 수치로 뒷받침한다. 이들은 오픈 소스 프로젝트의 풀 리퀘스트를 조사한 결과, AI가 생성한 코드가 인간 개발자가 작성한 코드보다 1.7배 더 많은 문제를 유발한다는 사실을 확인했다. 단순히 코드 생성 속도가 빠르다는 점이 생산성 향상으로 직결되지 않는다는 방증이다. 싱가포르 경영대학교(SMU)가 지난 4월 발표한 보고서 역시 AI 생성 코드가 소프트웨어 프로젝트의 장기적인 유지보수 비용을 가중시키는 주원인이 될 수 있다고 경고했다.

AI 코딩 에이전트 개발사인 코그니션(Cognition)의 CEO 스콧 우는 자사의 에이전트 '데빈(Devin)'을 두고 작업의 성격에 따라 주니어에서 미드 레벨 프로그래머 수준의 역량을 갖췄다고 평가했다. 이는 AI가 독립적인 완성형 도구가 아니라, 인간의 지속적인 개입과 검증이 필요한 보조 도구임을 시사한다. 결국 AI가 생성한 결과물을 무비판적으로 수용할 경우, 기업은 단기적인 속도 향상을 얻는 대신 장기적인 기술 부채를 떠안는 구조에 놓이게 된다.

SMU 연구진은 이러한 기술적 한계를 극복하기 위한 대안으로 인간의 역할을 재정의할 것을 제안한다. 소프트웨어 아키텍처 설계나 보안 설계와 같은 핵심적인 의사결정은 인간이 직접 수행해야 하며, AI가 작성한 결과물은 마치 주니어 개발자가 작성한 코드를 검토하듯 정밀한 품질 보증(QA) 시스템을 통해 필터링해야 한다는 것이다. AI의 작업물에 의존하는 비중이 높아질수록, 오히려 인간 개발자에게 요구되는 코드 리뷰와 아키텍처 설계 역량은 과거보다 더 높은 수준으로 요구되고 있다.

AI가 단축한 개발 시간은 코드의 양적 팽창으로 이어진다. 늘어난 코드만큼 관리 포인트가 증가하며 이는 곧 유지보수 비용의 상승 압박으로 작용한다. 초기 구축 속도의 향상이 장기적인 운영 비용의 증가로 상쇄된다면 실질적인 비용 절감 효과는 사라진다.

결국 AI 코딩의 생산성은 생성 속도가 아니라 누적되는 기술 부채를 관리하는 통제력에서 결정된다.