Claude Code의 '블랙박스' 캔다 — 분석 도구 Her 공개

.jsonl 로그를 읽는 AI 탐정 Her의 등장

에이전트는 빠르게 실행하고, 개발자는 느리게 추적한다. 클로드 코드(Claude Code) 세션이 남기는 .jsonl 파일은 모든 턴과 도구 호출, 토큰 기록을 상세히 담고 있다. 하지만 이 기록은 실무에서 사실상 쓰기 전용 데이터에 가깝다. 로그 파일은 존재하지만, 그 내용을 해석해 전략적 인사이트를 얻는 과정은 단절되어 있었다. 개발자가 에이전트가 왜 갑자기 프로덕션 환경에 접근했는지, 혹은 컨텍스트 예산이 어디서 급증했는지 파악하기 위해 4,000줄에 달하는 JSON 로그를 일일이 읽는 것은 물리적으로 매우 고된 작업이다. 마라티어로 탐정을 뜻하는 Her는 이 방대한 JSON 데이터를 인간이 즉시 이해할 수 있는 자연어 보고서로 전환한다.

사용자는 분석 대상인 세션 파일을 Her 인터페이스에 업로드한다. Her는 단순한 텍스트 변환을 넘어 세션 내에서 벌어진 사건의 전말을 자연어로 재구성해 보고한다. 자연어 보고서는 복잡한 JSON 구조를 제거하고 에이전트의 의도와 결과만을 남긴다. 특히 보안과 직결된 위험 동작을 탐지하는 데 집중한다. 배포 도구의 실행, 설정 및 프로덕션 환경의 변경, 민감한 시크릿 노출 같은 행위를 즉시 플래그로 표시한다. 모든 플래그는 로그 내의 정확한 턴 위치와 연결되어 있어 즉각적인 교차 검증이 가능하다. 개발자는 수천 줄의 로그 속에서 원인을 찾는 대신, 탐지된 위험 지점부터 역추적해 에이전트의 오작동 원인을 빠르게 파악한다.

토큰 소모의 투명성도 함께 확보한다. Her는 어떤 도구와 서브에이전트, 스킬, 그리고 MCP(Model Context Protocol) 서버가 토큰을 얼마나 소모했는지 정밀하게 추적한다. 특정 서브에이전트가 전체 실행 시간의 절반을 소모하며 비용을 낭비하는 지점을 정확히 식별해 낸다. 이는 에이전트의 효율성을 측정하는 정량적 근거가 된다. 단순한 로그 뷰어를 넘어 기업 환경에서 에이전트 운영 비용을 관리하는 감사 로그의 역할을 수행한다. 에이전트의 오작동 원인을 파악하는 디버깅 시간을 획기적으로 단축하고, 토큰 낭비 지점을 정확히 식별해 인프라 비용을 최적화하는 기준을 제공한다.

결정론적 엔진과 Nemotron-Mini-4B의 분리 구조

AI가 제시하는 수치가 실행할 때마다 달라지는 불확실성은 분석 도구의 치명적인 결함이다. Her는 이를 해결하기 위해 데이터 추출과 문장 생성을 분리하는 이원화 구조를 채택했다. 수치 계산과 로그 분석은 규칙 기반의 결정론적 엔진(Deterministic engine)이 전담한다. Nemotron-Mini-4B-Instruct 모델은 엔진이 도출한 결과값을 영어 문장으로 서술하는 역할만 수행한다. 분석의 핵심인 수치 데이터는 모델의 확률적 생성 과정에 개입하지 않는다. 모델을 변경하더라도 분석 결과의 무결성이 유지되는 이유다.

시스템 구동을 위한 인프라는 Hugging Face Space의 ZeroGPU 환경을 활용한다. 연산의 핵심인 모델은 Nemotron-Mini-4B-Instruct를 사용한다. 사용자 인터페이스는 React 앱으로 구축했으며 Gradio 서버가 이를 서빙하는 구조다. 사용자가 파일을 업로드하면 Gradio 서버를 통해 결정론적 엔진이 먼저 작동한다. 엔진이 로그에서 팩트를 추출하면 Nemotron 모델이 이를 자연어로 재구성해 React 프론트엔드에 전달한다. 경량 모델을 선택해 추론 비용을 낮추고 응답 속도를 확보했다.

데이터 보안은 외부 API 호출을 완전히 배제하는 폐쇄형 구조로 설계했다. 모든 분석 과정에서 제3자 AI API를 호출하지 않는다. 모델과 엔진 모두 할당된 GPU 인프라 내부에서 독립적으로 구동된다. 세션 파일은 사용자별로 할당된 개인 전용 네임스페이스에만 업로드된다. 이 공간은 작업이 종료되면 자동으로 삭제되는 휘발성 구조를 가진다. 데이터가 외부로 유출되지 않아 기업의 내부 설정이나 시크릿이 포함된 세션 로그도 안전하게 분석할 수 있다.

이러한 구조적 분리는 에이전트 디버깅의 효율성을 직접적으로 높인다. 결정론적 엔진이 리스크 지점을 정확히 식별하고 모델이 이를 설명하는 흐름이다. 개발자는 모델의 환각 현상에 구애받지 않고 로그의 팩트를 즉각적으로 신뢰할 수 있다. 토큰 소모가 급증한 지점이나 도구 선택의 오류를 파악하는 시간이 물리적으로 단축된다. 데이터의 정확성과 보고서의 가독성을 동시에 확보해 비용 최적화의 근거를 명확히 제시한다.

쓰기 전용' 로그에서 '대화형 분석'으로의 전환

로그를 생성하는 비용은 거의 제로에 가깝지만 이를 읽어내는 비용은 매우 비싸다. 개발자는 그동안 Claude Code가 남긴 .jsonl 파일을 열어 수천 줄의 JSON 텍스트를 직접 훑어야 했다. 에이전트가 왜 특정 시점에 프로덕션 환경에 접근했는지, 혹은 어떤 서브에이전트가 토큰을 낭비했는지 파악하려면 수동으로 턴을 추적하는 단순 반복 작업이 필수였다. 기록은 남지만 분석되지 않는 쓰기 전용 로그의 전형적인 모습이다.

Her는 이 정적인 기록을 대화형 인터페이스로 전환했다. Ask Her 코파일럿에 특정 도구를 사용한 이유를 물으면 세션 기록을 근거로 답변한다. 답변과 함께 해당 동작이 일어난 정확한 턴으로 즉시 이동하는 기능을 제공한다. 수천 줄의 텍스트 속에서 키워드를 검색하며 시간을 허비하던 디버깅 과정이 자연어 질의응답 형태로 바뀌었다.

분석 범위는 단일 세션 뷰에서 여러 파일을 동시에 분석하는 프로젝트 뷰로 확장된다. 파일 하나를 올리면 해당 세션의 흐름을 보지만, 여러 파일을 올리면 프로젝트 전체의 맥락에서 질문을 던질 수 있다. 여러 세션에 걸쳐 반복되는 오작동 패턴이나 비효율적인 도구 호출 경로를 한 번에 추적하는 것이 가능하다. 단일 세션의 파편화된 정보가 프로젝트 단위의 데이터로 통합된다.

CLI 도구의 정체를 식별하는 방식도 구체적이다. Homebrew, npm, PyPI 데이터베이스를 내장해 세션에 등장하는 도구의 이름과 설명을 자동으로 매칭한다. 개발자가 생소한 CLI 명령어를 만났을 때 외부 문서를 검색할 필요 없이 내장 DB의 한 줄 설명을 통해 도구의 역할을 즉시 확인한다. 도구의 정체를 알 수 없어 분석이 중단되는 지점을 제거했다.

에이전트의 오작동 원인을 찾는 디버깅 시간이 단축된다. 토큰 소모가 급증한 지점을 정확히 식별해 비용 최적화 지점을 빠르게 찾을 수 있다. 로그 분석의 주체가 인간의 인내심에서 AI의 검색 능력으로 옮겨가며 운영 효율이 올라간다.

에이전트 투명성 확보와 리스크 관리 비용 절감

AI 에이전트를 도입하면 운영 비용이 자동으로 줄어든다고 믿었다. 실제로는 에이전트가 내부적으로 어떤 도구를 호출하고 어디서 토큰을 낭비하는지 알 수 없어 비용 통제가 불가능한 경우가 많다. Her(마라티어로 '탐정' 의미)는 Claude Code 세션의 .jsonl 파일을 분석해 이 블랙박스를 연다. 어떤 서브에이전트나 스킬, MCP(Model Context Protocol, 모델 컨텍스트 프로토콜) 서버가 토큰을 소모했는지 정확히 추적한다. 복잡한 에이전트 워크플로우에서 특정 단계가 예산을 과도하게 점유하는 현상을 수치로 증명한다. 개발자는 이제 추측이 아니라 데이터로 토큰 급증 지점을 찾아내고 이를 기반으로 프롬프트를 수정한다.

에이전트에게 권한을 위임했을 때 가장 위험한 점은 의도치 않은 시스템 변경이다. Her는 배포 도구나 DB 클라이언트, 개발 서버 실행 같은 위험 동작이 감지되면 즉시 플래그를 표시한다. 로그 속에 숨어 있던 프로덕션 환경 변경 시도나 설정 변경 내역을 즉각적으로 시각화한다. 이는 에이전트의 오작동으로 인한 서비스 장애 리스크를 관리하는 실질적인 안전장치가 된다. 운영자는 수천 줄의 JSON 로그를 일일이 읽지 않고도 위험 요소를 빠르게 식별해 대응할 수 있다. 권한 오남용으로 인한 보안 사고 가능성을 사전에 차단하는 효과를 낸다.

단순한 탐지를 넘어 최적화 경로를 제시한다. Anthropic 및 커뮤니티의 베스트 프랙티스를 기반으로 더 효율적인 도구 사용법이나 구조 개선 제안을 제공한다. 이때 수치를 계산하는 결정론적 평가 엔진과 자연어를 생성하는 Nemotron-Mini-4B-Instruct 모델을 완전히 분리해 구동한다. 모델이 업데이트되거나 변경되어도 계산된 수치 데이터는 절대 변하지 않는 구조를 갖췄다. AI가 생성한 텍스트의 환각에 의존하지 않고 확정적인 데이터에 기반해 리스크를 판단하게 만든 설계다. 이는 분석 도구 자체가 가질 수 있는 신뢰성 문제를 기술적으로 해결한 지점이다.

결국 핵심은 디버깅 시간의 단축과 비용 효율화다. 에이전트가 왜 특정 도구를 선택했는지 파악하는 시간을 획기적으로 줄여 개발 생산성을 높인다. 토큰 낭비 지점을 정확히 식별해 API 호출 비용을 최적화하는 직접적인 지표로 활용한다. 투명성이 확보된 에이전트 운영은 기업이 AI 에이전트를 단순 실험 단계에서 실제 프로덕션 환경으로 확장하는 데 필요한 필수 전제 조건이다. 불투명한 추론 과정을 가시화함으로써 에이전트 도입의 심리적, 경제적 허들을 낮춘다.

한국 AI 실무자를 위한 '에이전트 감사(Audit)' 도구의 의미

에이전트가 왜 갑자기 엉뚱한 명령어를 실행했는지 찾아내려면 수천 줄의 로그를 일일이 훑어야 한다. 실무자는 에이전트의 오작동이나 환각 현상이 발생한 정확한 지점을 찾기 위해 수작업으로 JSON 로그를 대조한다. 특히 여러 도구를 복합적으로 사용하는 기업용 에이전트일수록 원인 추적 과정에서 심각한 시간 병목이 발생한다. 로그의 양이 방대해질수록 개발자가 직관적으로 오류 지점을 짚어내는 것은 사실상 불가능에 가깝다. 이 과정에서 소요되는 디버깅 시간을 단축하는 것이 실제 서비스의 안정성과 배포 속도를 결정하는 실질적인 변수가 된다.

토큰 비용이 예상보다 높게 청구됐을 때 어느 단계에서 낭비가 발생했는지 파악하는 과정은 더 고통스럽다. 특정 도구 호출이 무한 루프에 빠졌거나 불필요하게 긴 컨텍스트를 반복해서 불러오는 패턴을 식별해야 한다. 이러한 낭비 지점을 정확히 찾아내면 프롬프트를 수정하거나 워크플로우를 재설계해 비용을 즉각적으로 낮출 수 있다. 단순한 비용 절감을 넘어 토큰 효율성을 높이는 작업은 AI 에이전트의 비즈니스 모델을 지속 가능하게 만드는 핵심 과제다. 비용 최적화가 가능해질 때 비로소 대규모 사용자 대상의 서비스 확장이 가능해진다.

기업 내부의 세션 로그를 분석하기 위해 외부 AI API로 데이터를 전송하는 방식은 국내 보안 규정상 허용되지 않는다. 특히 금융이나 공공 분야의 한국 실무자에게는 데이터 유출 가능성이 없는 폐쇄적인 분석 환경이 절대적인 조건이다. 제3자 API 호출 없이 로컬이나 프라이빗 환경에서 구동되는 분석 도구의 필요성이 여기서 강조된다. 개인 전용 네임스페이스에서 데이터를 처리하고 분석 후 자동으로 삭제하는 구조는 기업의 엄격한 보안 준수 요구사항을 충족하는 유일한 방법이다. 보안 사고의 위험을 제거한 상태에서 에이전트의 행동을 분석할 수 있는 환경은 도입 장벽을 낮춘다.

결정론적 엔진이 수치를 계산하고 언어 모델이 이를 서술하는 분리 구조는 검증 결과의 신뢰성을 담보한다. 분석 도구 자체가 환각을 일으켜 개발자에게 잘못된 디버깅 방향을 제시하는 위험을 원천적으로 제거한 설계다. 숫자는 변하지 않고 서술만 보조하는 방식은 감사 도구가 가져야 할 객관성을 보여준다. 이는 기업용 AI 에이전트 도입 시 필수적인 사후 검증과 디버깅의 표준 모델을 제시한다. 단순한 로그 확인을 넘어 에이전트의 모든 행동을 투명하게 감사하는 체계가 실무에 적용되는 결과로 이어진다.

Claude Code를 사용하며 에이전트가 특정 도구를 선택한 이유나 토큰 비용이 급증한 지점을 파악하는 일은 어려웠다. Her는 .jsonl 세션 파일을 분석해 위험 동작을 탐지하고 자연어 보고서와 Q&A 기능을 제공한다. 수치를 계산하는 결정론적 평가 엔진과 자연어를 생성하는 Nemotron-Mini-4B-Instruct 모델을 분리해 분석의 신뢰도를 높였다. 개발자는 오작동 원인을 찾는 디버깅 시간을 줄이고 토큰 낭비 지점을 정확히 식별해 비용을 최적화한다. AI 에이전트의 실질적 가치는 이제 단순한 실행 능력이 아니라 통제 가능한 투명성에서 결정된다.