이번 주 개발자 커뮤니티에서 Garry Tan(Y Combinator CEO)이 공개한 gstack 저장소가 화제가 되었다. 그는 Claude Code(터미널 기반 AI 코딩 도구)를 위한 마크다운 프롬프트 파일 모음을 통해 가상 엔지니어링 팀을 운영한다고 주장했다. YC 업무를 병행하며 5개 프로젝트에서 하루 37,000줄의 코드를 배포했다는 수치를 제시했다. 하지만 실제 코드를 분석한 결과는 달랐다. 해당 웹사이트는 개발자 커뮤니티(미국 IT 커뮤니티)가 7번 요청할 때 169번의 서버 요청을 보냈다. 300KB면 충분할 PNG 파일을 2MB 그대로 올렸고, 읽기 전용 페이지에 리치 텍스트 에디터를 로드했다. 0바이트의 빈 파일이 프로덕션 환경에 그대로 방치되어 있었다.

에이전트 오케스트레이션 시장의 팽창과 지표의 괴리

AI 에이전트 관리 도구들이 쏟아지고 있다. Paperclip(AI 조직을 위한 오픈소스 운영체제)은 사용자가 이사회 역할을 하며 CEO, 부서장, 전문가 타이틀을 가진 에이전트들을 관리하게 한다. 이 도구는 조직도와 예산 관리, 에이전트의 정체성을 확인하는 하트비트 시스템을 제공하며 깃허브 스타 3만 개를 기록했다. Autoflowly(프롬프트 하나로 회사를 만드는 스타트업 OS)는 CTO, CMO, CFO 에이전트 3명으로 구성된 체제를 운영한다. AgentShelf(기업용 노코드 멀티 에이전트 오케스트레이션 도구)와 RuFlow(클로드 인스턴스를 분산 멀티 에이전트 환경으로 바꾸는 도구)가 기업 시장을 공략하고 있다. Alacritous(중소기업 대상 자율 멀티 에이전트 오케스트레이션 서비스)는 월 3,000달러의 이용료를 책정했다.

실제 비즈니스 임팩트는 수치로 드러난다. NBER(미국 국립경제연구소)가 미국, 영국, 독일, 호주의 CEO와 CFO 6,000명을 조사한 결과, 기업의 90%가 지난 3년간 AI로 인한 측정 가능한 생산성이나 고용 변화가 없었다고 답했다. 직원 1인당 평균 AI 사용 시간은 주당 1.5시간이었고, CEO의 사용 시간은 1시간 미만이었다. Sequoia(글로벌 벤처캐피털 세쿼이아 캐피털)에 따르면 6,900억 달러 규모의 AI 인프라 투자가 정당화되려면 연간 6,000억 달러의 매출이 필요하지만, 현재는 500억에서 1,000억 달러 수준에 머물고 있다. AI 투자 중 측정 가능한 ROI(투자 자본 수익률)를 내는 경우는 5분의 1에 불과하며, 파괴적 가치를 만드는 경우는 50분의 1 수준이다. 엔터프라이즈 AI 파일럿의 95%는 실험실 단계를 벗어나지 못했다.

지휘관의 환상과 토큰맥싱의 등장

예전에는 개발자가 코드 한 줄의 효율성을 고민하며 직접 작성했다. 이제는 대시보드 위의 조직도와 에이전트 계층 구조를 보며 군대를 지휘하는 기분을 느낀다. 위임의 도파민은 얻었지만, 그 결과물이 실제로 유용한지는 측정하지 않는다. 관리 레이어와 거버넌스 시스템이 늘어날수록 실제 출력물은 비대해지고 효율은 떨어진다. 이는 생산성 향상이 아니라 관리 행위 자체를 생산성으로 착각하는 현상이다.

현장에서는 tokenmaxxing(최대한 많은 AI 토큰을 소비하려는 경쟁적 행위)이라는 기이한 문화가 퍼지고 있다. OpenAI의 한 엔지니어는 일주일에 2,100억 개의 토큰을 처리했다. Anthropic의 Claude Code 사용자 중 한 명은 월 15만 달러의 비용을 지불하고 있다. Shopify(캐나다 전자상거래 플랫폼)의 Tobi Lutke CEO는 AI 사용량을 성과 평가 요소로 도입했다. Meta(메타 플랫폼스) 역시 유사한 흐름을 보였다. 일부 기업은 누가 더 많은 토큰을 태웠는지 기록하는 내부 리더보드를 운영한다. 이 리더보드는 결과물이 아니라 소비량을 측정한다.

결국 AI 에이전트의 성패는 화려한 대시보드가 아니라 지루한 요구사항 정의서와 수용 기준, 그리고 정밀한 측정 지표에 달려 있다.