CodeBurn으로 18개 AI 코딩 도구의 토큰 비용과 효율을 실시간 추적하기

18개. Claude Code(Anthropic이 만든 터미널 기반 AI 코딩 도구), Codex(OpenAI의 코드 생성 모델), Cursor(AI 기반 코드 에디터)를 포함한 주요 AI 코딩 도구들이 한 달 동안 내 지갑에서 빼가는 토큰 비용의 숫자다. 마치 수도꼭지를 틀어놓고 물이 얼마나 나가는지 모른 채 설거지를 하는 것과 같다. 그런데 이 도구들은 단순히 코드를 짜주는 것을 넘어, 보이지 않는 곳에서 끊임없이 API를 호출하며 비용을 발생시킨다.

18개 도구의 비용을 로컬에서 직접 추적하는 방식

CodeBurn(AI 코딩 도구의 토큰 사용량과 비용을 추적하는 터미널 대시보드)은 외부 서버를 거치지 않고 오직 내 컴퓨터의 디스크에 저장된 세션 데이터만을 읽어 들인다. 별도의 래퍼(기존 소프트웨어를 감싸 기능을 추가하는 도구)나 프록시(중간에서 통신을 가로채는 서버), 혹은 복잡한 API 키 설정 없이도 작동한다. LiteLLM(다양한 LLM API를 하나로 통합해 관리하는 라이브러리)의 가격 데이터를 활용해 비용을 산정하며, 모든 처리 과정이 로컬 환경에서 이루어지므로 보안 측면에서도 안전하다. 설치는 터미널에서 아래 명령어를 입력하면 즉시 가능하다.

bash

npm install -g codeburn

또는

brew install codeburn

낭비 패턴 탐지와 등급별 건강도 평가

예전에는 개발자가 일일이 로그를 뒤져가며 어디서 토큰이 낭비되는지 찾아야 했다. 이제는 CodeBurn이 자동으로 낭비 패턴을 잡아낸다. `codeburn optimize` 명령어를 실행하면 반복적으로 읽히는 파일, 사용되지 않는 MCP 서버(AI가 외부 도구와 통신하기 위한 표준 규격), 지나치게 비대해진 CLAUDE.md 파일, 그리고 비용 대비 효율이 낮은 세션을 즉시 찾아낸다. 각 발견 사항마다 예상되는 토큰 절약량과 달러 단위의 비용 절감액을 보여주며, 설정의 건강도를 A부터 F까지 등급으로 매겨 개선 방향을 제시한다. 수정안은 복사해서 바로 붙여넣을 수 있는 형태로 제공되어 즉각적인 최적화가 가능하다.

모델별 비교와 생산성 연계 분석

이번 업데이트에서 가장 눈에 띄는 변화는 모델 간의 성능을 직접 비교하는 기능이다. `codeburn compare`를 사용하면 모델별 원샷 성공률(한 번의 시도로 작업이 완료되는 비율), 재시도율, 호출당 비용, 캐시 히트율(캐시된 데이터를 재사용하는 비율)을 한눈에 나란히 놓고 비교할 수 있다. 또한 `codeburn yield` 명령어를 통해 AI 세션과 Git 커밋(코드 변경 이력을 저장하는 행위)을 연계한다. 이를 통해 지출이 실제로 생산적인 작업에 쓰였는지, 아니면 버려지거나 되돌려진 코드에 낭비되었는지 분류한다. 작업 유형은 코딩, 디버깅, 기능 개발, 테스트 등 13개 카테고리로 LLM 호출 없이 결정론적으로 분류되어, 어디에 토큰이 집중되는지 명확하게 파악할 수 있다.

macOS 메뉴 바와 다국적 통화 지원

개발자가 바로 체감하는 변화는 실시간 모니터링 편의성이다. `codeburn menubar` 명령어를 입력하면 macOS 메뉴 바 앱이 실행되어, 아이콘을 통해 오늘 발생한 지출을 실시간으로 확인할 수 있다. 또한 162개 통화를 지원하는 Frankfurter(환율 정보를 제공하는 API)를 통해 `codeburn currency KRW` 명령어로 즉시 원화 표시로 전환할 수 있다. `--provider`, `--project`, `--exclude` 등 다양한 필터링 옵션과 `--format json` 출력을 지원하여 기존의 개발 파이프라인이나 자동화 도구와 손쉽게 연동할 수 있다. MIT 라이선스로 배포되는 이 도구는 GitHub 저장소에서 상세한 문서와 함께 확인할 수 있다.

도구의 효율은 단순히 비용을 줄이는 것이 아니라, AI가 내뱉는 결과물의 가치를 측정하는 것에서 시작된다.