facts: 강제적 사용에서 품질 중심의 토큰 투입으로
기업의 AI 도입 초기 단계에서 나타난 '토큰맥싱(Tokenmaxxing)'은 조직 내 AI 도구 사용을 확산시키기 위해 토큰 사용량을 성과 평가와 연결하는 방식으로 작동했다. Meta의 경우 개인별 토큰 사용 수치를 평가 지표로 활용했으며, 이 과정에서 수치를 높이기 위해 두 개의 에이전트를 하루 종일 대화시키는 형식적인 사용 사례가 발생했다. 이러한 정책은 시니어 인력의 AI 도구 거부감을 낮추고 Cursor(커서, AI 기반 코드 에디터) 같은 도구를 실무에 편입시키는 강제 수단으로 기능했다.
최근의 변화는 무의미한 소모가 아니라, 더 많은 토큰을 투입할수록 결과물의 품질이 향상되는 '누적 정확성(compounding correctness)' 흐름으로 이동하고 있다는 점이다. 과거에는 에이전트를 장시간 실행할 때 작은 오류가 쌓여 전체 결과가 망가지는 '누적 오류(compounding error)'가 핵심 제약이었으나, 현재는 계산량을 늘려 정답 가능성을 높이는 방향으로 인센티브가 재편되고 있다.
how-it-works: 루프 메커니즘과 계산량 기반의 성능 향상
누적 정확성을 구현하는 핵심 방식은 '루프(loops)' 구조다. 이는 에이전트가 자신의 턴을 마칠 때까지 실행한 뒤, 종료되면 동일한 프롬프트를 다시 시작하여 이전 결과를 보완하게 만드는 파이프라인이다. 무거운 명세를 자동으로 세분화하고 시간이 지남에 따라 부분별로 문제를 해결하는 방식으로 작동한다.
이러한 계산량 중심의 접근법은 보안 분야에서 구체적인 수치로 확인된다. AISI(AI Safety Institute, AI 안전 연구소)는 Mythos 모델을 활용해 시스템 취약점을 찾는 테스트를 진행했다. 이때 시도 1회당 1억(100M) 토큰의 예산을 배정했으며, 비용은 회당 12,500달러, 10회 실행 시 총 125,000달러 규모다. AISI는 테스트 범위 내에서 토큰 예산이 늘어날수록 모델의 성능이 계속해서 진전되었으며, 수익 체감(diminishing returns) 징후가 나타나지 않았다고 밝혔다.
비용 효율성을 위해 프런티어 모델 대신 저렴한 오픈 모델을 루프에 투입하는 전략이 부상하고 있다. 모델별 100만 토큰당 비용 비교는 다음과 같다.
- GLM 5.2: 입력 $1.4 / 출력 $4
- Haiku 4.5: 입력 $1 / 출력 $5
- Opus 4.X 시리즈: 입력 $5 / 출력 $25
GLM 5.2는 Haiku보다 성능이 강하며 일부 벤치마크에서는 GPT 5.5보다 우위에 있다. 만약 Claude가 루프 1회당 1.1배의 개선을 주고 GLM 5.2가 1.05배의 개선을 준다면, 비용이 5분의 1 수준인 GLM 5.2를 5배 더 많이 돌리는 것이 결과적으로 더 유리한 구조가 된다.
implementation-impact: 개발자 지출과 파이프라인 운영의 구분
실무자는 토큰 지출의 성격을 '개발자용'과 '파이프라인용'으로 구분하여 판단해야 한다. 개발자가 Claude Code 같은 도구를 통해 루프를 실행하며 생산성을 높이는 지출은 엔지니어링 효율성 측면에서 정당화될 수 있다. 반면, 비결정적이고 취약한 방식으로 동작하는 일회성 에이전트 파이프라인에 토큰을 쏟아붓는 것은 위험하다. 환각을 줄이기 위해 검증 에이전트를 추가하고, 다시 그 검증 에이전트의 오류를 잡기 위해 또 다른 에이전트를 붙이는 구조는 비용을 3배 이상 증가시키지만 정확도는 결정적 파이프라인보다 낮기 때문이다.
최종적인 지향점은 사람이 명세를 입력하면 AI가 코드를 생성, 리뷰, 버그 수정, 테스트 작성까지 수행하는 '소프트웨어 팩토리' 구조다. StrongDM은 엔지니어 1인당 하루 1,000달러의 토큰 지출을 목표로 해야 한다고 주장했으나, 실제 자체 소프트웨어 팩토리 운영 비용은 월 600달러 수준으로 파악된다. 현재 단계에서 엔지니어 1명에게 시니어 구글 엔지니어 수준의 비용을 토큰으로 지출하는 것은 과도하며, 실제 도입 시에는 모델의 루프당 개선율과 토큰 비용의 상관관계를 분석해 최적의 반복 횟수를 산출하는 것이 중요하다.




