토큰 비용 0원, Gemma 4와 Claude Code로 구현하는 로컬 코딩 에이전트

API 비용과 보안 리스크: 로컬 코딩 에이전트의 도입 배경

개발자는 단 하루 오후 동안 4개 서비스에 걸쳐 400회의 API 호출을 수행하는 멀티 에이전트 워크플로우를 운용하며 토큰 비용 청구와 소프트 리밋(soft limit) 도달 문제에 직면한다. 모든 토큰 생성은 비용을 발생시키며, 프롬프트 입력 시 사내의 독점 소스코드가 제3자 서버로 전송되는 보안 리스크가 상존한다. 또한 API 레이트 리밋(rate limit)은 장시간 실행되는 세션을 중단시켜 개발 흐름을 끊는 병목 지점으로 작용한다.

이러한 제약을 해결하기 위해 개발자는 모델을 로컬 환경에 구축하여 토큰당 비용을 0원으로 낮추고 데이터 주권을 확보하는 전략을 채택한다. 외부 서버 전송 없이 로컬 워크스테이션 내에서 모든 추론을 완결하면 보안 검토 절차를 생략하고 폐쇄망 환경에서도 에이전트를 운용할 수 있다. 이는 비용 지불을 통해 리밋을 높이는 기존 방식에서 벗어나, 인프라 제어권을 통해 운영 효율성을 확보하는 전환점이 된다.

$\tau^2$-bench 86.4% 달성: Gemma 4의 에이전트 툴 사용 능력

구글 딥마인드는 2026년 4월 2일, 오픈 웨이트 모델 패밀리인 Gemma 4를 공개했다. Gemma 4 26B MoE 모델은 모델이 도구를 호출하고 단계를 실행하며 멀티 스텝 워크플로우에서 오류를 처리하는 능력을 측정하는 $\tau^2$-bench 테스트에서 86.4%의 성능을 기록했다. 이는 이전 세대인 Gemma 3 27B가 동일 벤치마크에서 기록한 6.6%와 비교해 비약적으로 상승한 수치다.

또한 Gemma 4 26B MoE는 LiveCodeBench v6에서 77.1%의 점수를 획득하며 코드 생성 능력을 입증했다. 이러한 성능 향상은 단순한 수치 증가가 아니라, 함수 호출 파라미터의 형식을 정확하게 생성하여 Claude Code와 같은 에이전트 루프를 끊김 없이 유지할 수 있는 실질적인 신뢰도로 이어진다. 모델이 도구 호출 시 인자 값을 잘못 생성해 무한 루프에 빠지거나 작업을 중단하던 기존 오픈 모델의 한계를 극복하고, 파일 읽기, 패치 작성, 테스트 실행의 워크플로우를 안정적으로 제어한다.

Apache 2.0 라이선스와 MoE 아키텍처의 운영 효율성

Gemma 4는 E2B, E4B, 26B MoE, 31B Dense의 네 가지 변체로 출시되어 엣지 디바이스부터 워크스테이션까지 대응한다. 특히 26B MoE 모델은 128개의 소형 전문가 중 토큰당 8개의 전문가와 1개의 공유 전문가만을 활성화하는 구조를 사용한다. 포워드 패스당 실제 연산에 참여하는 파라미터는 3.8B에 불과하여, 31B Dense 모델에 근접한 품질을 유지하면서도 컴퓨팅 비용을 획기적으로 낮췄다.

라이선스 체계는 Gemma 패밀리 최초로 Apache 2.0을 채택했다. 기존 Gemma 시리즈는 상업적 이용 제한이 모호한 커스텀 라이선스를 적용하여 기업 법무팀의 검토 단계에서 도입이 지연되는 사례가 빈번했다. Apache 2.0 라이선스 적용으로 기업은 별도의 법적 검토 비용 없이 모델을 내부 툴링에 임베딩하거나 프로덕션 파이프라인에 즉시 적용할 수 있다. 이는 법적 불확실성을 제거하여 개발팀이 기술적 최적화에만 집중할 수 있는 운영 환경을 제공한다.

Modelfile 최적화: 4K 컨텍스트 제한 해제와 엔드포인트 설정

Ollama를 통해 Gemma 4를 실행할 때 기본 설정된 컨텍스트 윈도우는 4K 토큰으로 제한된다. 하지만 Gemma 4의 실제 설계 사양은 128K에서 256K에 달하며, 4K 제한을 유지할 경우 에이전트 세션에서 수 초 만에 컨텍스트가 소진된다. 특히 에이전트가 200줄 규모의 서비스 클래스를 리팩토링할 때 파일의 후반부를 망각하고 불완전한 뷰를 바탕으로 코드를 생성하여 하위 모듈을 파괴하는 결과가 발생한다. 이를 해결하기 위해 Modelfile을 작성하여 컨텍스트 크기와 추론 파라미터를 명시적으로 확장한 전용 모델 변형을 생성해야 한다.

Claude Code와 Ollama를 연결하는 엔드포인트는 `http://localhost:11434` 루트 경로를 사용해야 한다. 많은 사용자가 OpenAI 호환 레이어인 `/v1` 경로를 추가하지만, Claude Code는 Anthropic Messages API 프로토콜을 사용하므로 루트 엔드포인트와 직접 매핑되어야 한다. `/v1` 경로 사용 시 인증 오류나 예상치 못한 응답 형식이 발생한다. 또한 프로젝트별로 환경을 격리하려면 `.claude/settings.json` 파일을 생성하여 글로벌 설정보다 우선 적용함으로써 민감한 코드베이스에 최적화된 모델 태그와 온도(Temperature) 값을 설정할 수 있다.

로컬과 클라우드의 분기점: 태스크 성격에 따른 판단 기준

로컬 코딩 에이전트 스택은 테스트가 없는 기존 파이썬 모듈을 분석하고, 테스트 스위트를 작성하며, 실행 결과에 따라 코드를 수정하는 반복 루프를 완결하는 데 최적화되어 있다. 개발자는 단일 모듈의 분석, 타겟 리팩토링, 디버깅과 같은 일상적인 엔지니어링 태스크를 토큰 비용 없이 로컬에서 수행할 수 있다. 이는 외부 서버 전송 없이 로컬 워크스테이션 내에서 모든 추론이 완결되므로 소스코드 유출 위험을 물리적으로 차단하는 효과를 준다.

다만 수많은 파일이 얽힌 대규모 코드베이스의 복잡한 아키텍처를 설계하거나 SWE-bench 수준의 심층적인 저장소 이해도가 필요한 작업에서는 여전히 클라우드 모델이 우세하다. 따라서 개발자는 전체 시스템 설계 변경과 같은 고차원적 추론은 클라우드 모델에 맡기고, 일상적인 리팩토링과 테스트 작성은 로컬에서 처리하는 이원화된 판단 기준을 세워야 한다. 결과적으로 모델의 체급이 아닌 태스크의 성격과 보안 요구 수준에 따라 추론 환경을 선택하는 것이 가장 효율적인 엔지니어링 전략이 된다.