토큰 65배 더 쓰는 MCP, 다시 CLI로 돌아가는 이유

MCP 서버와 상호작용하기 위한 명령줄 인터페이스인 MCP

필요 없는 정보까지 전부 읽어 들이느라 정작 중요한 질문에 쓸 토큰이 부족해지는 경험은 흔하다. 실제로 Linear(이슈 추적 도구) 이슈를 조회할 때 CLI(명령줄 인터페이스) 방식은 약 200토큰을 쓰지만, MCP(모델 컨텍스트 프로토콜) 방식은 약 12,957토큰을 소비한다. 항상 로드되는 42개의 도구 정의가 12,807토큰을 차지하기 때문이다. 2026년 현재 실용적이고 토큰 효율적인 에이전틱 코딩을 위해 CLI 접근 방식이 다시 주목받는 이유다.

Perplexity(AI 검색 엔진)의 CTO는 컨텍스트 낭비와 인증 마찰을 이유로 내부적으로 MCP 사용을 중단했다고 발표했다. Claude Code(클로드 코드)는 Tool Search with Deferred Loading 기능을 도입해 도구 스키마를 필요할 때만 로드함으로써 컨텍스트 사용량을 85% 이상 줄였다. 표준화된 프로토콜보다 실제 작동하는 효율성을 중시하는 방향으로 흐름이 이동하고 있다.

IBM은 이러한 흐름에 맞춰 MCP 서버와 상호작용하는 MCP CLI(Model Context Protocol Command Line Interface)를 공개했다. 이 도구는 CHUK Tool Processor 및 CHUK-LLM과 통합해 LLM과의 통신과 도구 사용, 대화 관리를 지원하며 관심사 분리가 명확한 모듈형 아키텍처로 설계되었다. AI가 gh, aws, kubectl, git 같은 셸 명령어를 직접 생성하고 실행하게 하는 구조로, Claude Code나 Aider, Amazon Q CLI의 non-MCP 모드 같은 도구들이 이를 활용한다. LLM에게 CLI 도구와 관련 문서만 제공해도 별도의 특수 프로토콜 없이 충분한 성능을 낼 수 있다는 관점이 반영되었다.

저자는 MCP(Model Context Protocol)가

AI 도구를 연결할 때 더 이상 복잡한 설정 없이 깔끔한 인터페이스만으로 작동하길 기대했다. 하지만 실제로는 각 도구의 기능과 허용 매개변수, 사용 시점을 정의하는 문서화 작업을 기존과 동일하게 수행해야 했다. 저자는 이러한 경험을 바탕으로 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜)가 실질적인 이점이 없으며 이미 쇠퇴하고 있다고 주장한다.

Linear, Notion, Slack, Postgres의 도구 정의 77개는 약 21,077토큰을 소비한다. 이는 Claude 200K 컨텍스트의 10.5%, GPT-4o 128K 컨텍스트의 16.5%에 달하는 수치다. gdrive.getDocument로 가져온 전체 텍스트를 salesforce.updateRecord로 다시 작성할 때 모델이 내용을 컨텍스트에 반복해서 써야 하는 비효율도 확인된다. 도구 정의와 데이터 처리가 모델의 한정된 자원을 빠르게 잠식한다.

Skills 방식은 호출될 때만 CLI(Command Line Interface, 명령줄 인터페이스) 사용 지침을 로드해 컨텍스트 압박을 해결한다. 모든 정의를 미리 펼쳐놓는 MCP와 대조되는 방식이다. Cursor(커서, AI 코드 에이전트)는 도구 설명을 파일 시스템에 저장하고 에이전트에게는 짧은 이름만 알린 뒤, 필요할 때만 상세 내용을 찾아보게 하는 동적 컨텍스트 발견 방식을 도입해 토큰 효율을 높였다.

MCP Apps(MCP 앱스, 브라우저 렌더링 기능)를 통해 도구 서버가 브라우저에서 렌더링되는 대화형 HTML UI를 제공하는 것도 가능하다.

데이터 수집 비용을 낮추는 구조

2024년 말 등장한 새로운 표준이 1년여 만에 기존 도구와 정면 충돌하는 양상이다. Anthropic이 도입한 MCP(Model Context Protocol, AI 모델이 외부 데이터와 도구에 표준화된 방식으로 연결하게 하는 개방형 프로토콜)는 AI를 위한 USB-C로 비유된다. 서버를 통해 스키마, 도구, 리소스, 프롬프트를 노출해 맞춤형 글루 코드를 작성하는 수고를 덜고 결정론적 호출과 타입 안전성을 제공한다.

2026년 기준 실용적인 AI 에이전트 사례에서는 CLI(Command Line Interface, 명령줄 인터페이스) 도구가 MCP 서버보다 비용 효율적이라는 판단이 우세하다. 2025년부터 2026년 사이 AI 에이전트 개발 분야에서는 두 방식 중 무엇을 선택할지가 핵심 쟁점으로 부상했다. 특히 비용에 민감한 사용 사례에서 작업 완료당 실제 지출 비용(raw dollars spent per task completed)을 따졌을 때 CLI 도구가 MCP 서버보다 우위에 있다.

연결된 MCP 서버가 너무 많아지면 도구 정의와 결과값이 과도한 토큰을 소비하며 효율성이 떨어진다. 코드 실행 환경을 사용하더라도 연결된 서버의 수가 특정 임계치를 넘으면 토큰 소비 문제가 발생한다. 이는 결과적으로 에이전트의 전반적인 효율성을 저하시키는 요인이 된다.

MCP CLI는 Ollama와 `gpt-oss` 추론 모델을 기본 설정으로 사용하여 API 키가 필요 없는 로컬 기반의 개인정보 보호 중심 운영을 지원한다. OpenAPI(웹 API 설계를 위한 표준 규격) 문서를 통해 MCP 서버를 생성하고 연결 설정과 인증 구성을 거쳐 자연어로 API를 쿼리할 수 있다. 채팅 모드에서는 스트리밍 방식의 응답과 지능적인 도구 활용이 가능한 인터페이스를 제공한다.

서버를 직접적인 도구 호출 대신 코드 API 형태로 제공하여

도구 연결 방식의 효율을 찾는 시도가 빠르게 구체화됐다. MCP(Model Context Protocol, 모델 컨텍스트 프로토콜) 서버를 직접적인 도구 호출 방식이 아닌 코드 API 형태로 제공하는 방식이 도입됐다. 에이전트가 실행 환경에서 필요한 도구만 선택적으로 로드하고, 데이터를 모델에 전달하기 전 해당 환경에서 먼저 처리하는 구조다. 모델로 보내는 데이터 양을 최적화해 AI 에이전트의 작동 효율을 높였다.

실제 구현 환경에서는 Gram(MCP 서버 호스팅 서비스) 대시보드의 'New Project' 기능을 통해 툴셋과 서버 설정을 시작하는 가이드 흐름을 따른다. OpenAPI 문서를 업로드하고 API 이름을 입력하는 과정을 거쳐 MCP 서버를 생성한다. Anthropic API를 이 Gram 호스팅 서버에 연결해 사용할 수 있으며, 가이드에서는 Push Advisor API를 구체적인 예시로 활용한다. 이를 통해 Claude 모델이 인프라와 도구에 직접 접근하는 구성이 가능해진다.

셸 환경에서 기존 터미널 명령어를 직접 실행하는 CLI(Command Line Interface, 명령줄 인터페이스) 방식도 활용된다. 최신 모델들이 셸 명령어를 이미 잘 이해하고 있다는 점을 이용해, Claude는 `gh pr view 123` 같은 명령어를 별도 프로토콜 없이 직접 사용하며 git, npm, docker, AWS CLI 및 Unix 명령어를 활용한다. 특히 파이프 연산자(|)를 통해 여러 도구의 호출 결과를 직접 전달하는 구성 가능성이 특징이다. 다만 실시간 양방향 통신이 필요하거나, 프로덕션 DB의 서버 레벨 쿼리 검증 및 자격 증명 보호가 중요한 환경에서는 MCP가 더 유효한 연결 방식이 된다. 터미널을 쓰지 않는 비개발자 사용자에게도 MCP는 더 높은 접근성을 제공한다.

실무 워크플로우의 신뢰성과 성능 면에서 CLI 방식이

터미널 창에 명령어를 입력하고 즉각적인 결과를 확인하던 습관은 개발자에게 가장 익숙한 방식이다. 파일 편집이나 테스트 실행, git 작업(버전 관리 시스템)과 배포 같은 실무 과정에서 CLI(명령줄 인터페이스)는 별다른 설정 없이 작동한다. 반면 MCP(모델 컨텍스트 프로토콜)는 스키마 오독이나 도구 선택 오류, 무한 루핑 현상을 일으키기도 한다. 높은 토큰 소모와 JSON-RPC(원격 프로시저 호출) 오류 같은 디버깅 마찰이 잦아 실무 신뢰성 면에서 CLI가 더 효율적이라는 평가가 많다.

Jira(협업 툴) MCP 벤치마크 결과는 응답 속도의 격차를 수치로 보여준다. MCP는 REST API(웹 서비스 간 통신 규약) 직접 호출보다 호출당 3배 느리게 작동했다. 특히 초기화를 포함한 첫 호출 속도는 직접 호출보다 9.4배나 느린 것으로 나타났다. 연결 계층이 추가되면서 발생하는 지연 시간이 성능 저하의 원인이 된다.

보안과 제어권 측면에서는 MCP가 더 정교한 관리 체계를 제공한다. 구조화된 권한 설정과 샌드박싱, 제한된 작업 수행 및 감사 기능을 통해 안전한 환경을 구축한다. 직접적인 CLI 액세스는 시스템에 치명적인 파괴적 명령어가 실행될 위험이 크다. 이를 완화하려면 별도의 래퍼(wrapper, 기능을 감싸는 프로그램)를 추가로 사용해야 한다.

코드 실행과 결합한 MCP는 도구를 온디맨드로 로드하고 모델에 도달하기 전 데이터를 필터링해 토큰 사용량을 최적화한다. 복잡한 로직을 단일 단계에서 실행해 컨텍스트를 더 효율적으로 사용하게 돕는다. MCP CLI는 CHUK-LLM의 모든 제공자와 최신 추론 모델을 지원하며, Claude(클로드)가 제어할 때나 사람이 키보드를 사용할 때나 동일하게 작동하는 검증된 인증 흐름을 갖췄다.

토큰 소모량이 65배까지 치솟는 MCP의 비용 구조는 개발자들에게 효율성에 대한 근본적인 질문을 던진다. 통합의 편의성이 주는 이점보다 실제 운영 비용의 증가분이 더 크다는 사실이 CLI로의 회귀를 이끄는 실질적인 동력이 됐다. 도구의 연결성보다 자원 최적화가 우선시되는 환경으로 무게중심이 이동하고 있다. 결국 AI 에이전트의 성패는 기능의 확장성이 아니라 비용의 통제력에서 결정된다.