1M 토큰 광고의 배신, LLM이 진짜 똑똑한 구간은 100k까지

벤더들이 광고하는 대규모 컨텍스트 창 수치는 실제 사용 가능한

수백 페이지의 기술 문서나 방대한 코드 저장소를 한 번에 입력해도 모델이 모두 기억한다는 광고는 실무자에게 매우 매력적인 제안이다. 하지만 200k, 1M, 2M에 달하는 대규모 컨텍스트 창 수치는 실제 작업 범위를 보장하지 않는 마케팅 숫자에 가깝다.

벤더들이 제시하는 제품 표시 숫자가 커지는 속도에 비해 실제 사용 가능한 부분은 그만큼 따라가지 못한다. 벤더들은 200k, 1M, 2M 컨텍스트 창을 광고하지만, 이는 기본 주의 메커니즘(Attention Mechanism, 입력 데이터 간의 관계를 계산해 중요도를 할당하는 방식)이 실제로 해결하지 못하는 문제를 덮어두는 수치다. 아키텍처는 작동하더라도 실제 사용 가능한 작업 집합을 의미하지 않는 숫자로 포장된 셈이다.

RULER와 Chroma의 보고서는 컨텍스트 창을 채울수록 모델의 성능이 점진적으로 저하되는 현상을 증명한다. 해당 보고서들은 유효 컨텍스트가 광고된 수치의 일부에 불과하다는 컨텍스트 롯(Context Rot, 컨텍스트가 늘어날수록 정보 회수 능력이 떨어지는 현상)을 구체적으로 보여준다. 컨텍스트 창을 가득 채울수록 모델의 정보 처리 능력이 낮아지며, 결국 광고 수치의 극히 일부만이 유효하게 작동한다.

결과적으로 모델의 최대 수용량과 실제 추론 성능 사이에는 상당한 간극이 존재한다. 사용자는 벤더가 제시한 최대 수치를 신뢰하기보다 실제 성능이 유지되는 유효 구간을 파악해 입력량을 조절해야 한다.

LLM 컨텍스트 창은 약 100k 토큰을 기점으로 스마트

수백만 토큰을 한 번에 처리한다는 광고를 믿고 방대한 문서를 밀어 넣었지만, 정작 모델이 엉뚱한 대답을 내놓는 경험을 한다. 실제 LLM의 컨텍스트 창은 약 100k 토큰을 기점으로 스마트 구간과 둔한 구간으로 명확히 나뉜다. 스마트 구간에서는 모델이 입력된 정보를 예리하게 처리하고 복잡한 지시를 정확하게 수행한다. 반면 100k를 넘어 둔한 구간에 진입하면 주의력이 급격히 떨어지며, 세션 초반에 내린 핵심 지시를 잊거나 무시하는 현상이 발생한다. 제조사가 광고하는 컨텍스트 창의 절대적인 크기가 1M, 2M로 계속 늘어나더라도 실제 작업 가능 범위를 결정하는 이 물리적 구분점은 사라지지 않는다. 광고 수치가 실제 작업의 정밀도를 보장하지 않는다는 뜻이다.

자동 요약 기능에 의존하는 대신 직접 작성한 명세와 작은 산출물을 세션 외부에 남기는 브레드크럼(breadcrumb, 경로 추적을 위해 남기는 흔적) 방식이 더 효율적이다. PRD(제품 요구 사항 문서), 계획, 스킬 등 이름이 붙은 작은 단위의 산출물을 중심으로 워크플로를 구성해 정보를 라이브 세션 밖으로 옮기는 전략을 취한다. obra/superpowers나 mattpocock/skills는 이러한 작은 산출물을 기반으로 에이전트 워크플로를 설계해 모델이 처리해야 할 일시적 부하를 줄인다. 단순히 이전 대화를 요약해 전달하는 것이 아니라, 새 세션을 열 때마다 검증된 명세를 전달함으로써 모델이 항상 100k 이하의 스마트 구간에서 작동하도록 강제한다. 이는 정보를 라이브 세션 내부에 쌓아두지 않고 외부 산출물로 분리해 관리하는 설계 기준이 된다.

확인해야 할 핵심 지점

복잡한 프로젝트의 버그를 잡다 보면 AI가 갑자기 맥락을 놓치거나 엉뚱한 코드를 제안하는 이유는 무엇일까. 코딩 에이전트는 일반적인 대화보다 훨씬 많은 양의 데이터를 한꺼번에 처리한다. 수십 개의 파일을 읽고 긴 디버깅 과정을 거치며 대규모 테스트를 실행하는 작업은 토큰 소모 속도를 극대화한다. 이 과정에서 컨텍스트는 순식간에 100k 토큰 지점에 도달한다. 모델이 지능적으로 반응하지 못하는 둔한 구간에 빠르게 진입하며 작업 효율이 급격히 떨어진다.

Claude Code(클로드 코드, 터미널 기반 코딩 도구)는 세션이 길어지면 기존 기록을 요약해 세션을 초기화하는 auto-compact 기능을 수행한다. 이 장치는 토큰 누적을 막아주지만 작동 시점이 문제다. 기능이 활성화되는 시점은 모델이 이미 둔한 구간에 진입해 성능 저하를 겪은 이후다. 요약본을 생성하는 주체 또한 이미 성능이 떨어진 상태의 모델이다. 성능이 저하된 모델이 작성한 요약본은 세션의 정밀도를 낮춘다. 성능이 떨어진 상태에서 생성된 요약본이 다음 세션의 기초가 되며 모델의 유효 성능을 온전히 되찾지 못하게 만든다.

100만 토큰이라는 거대한 창은 매력적이지만, 실질적인 추론 성능이 유지되는 스마트 구간은 100k 주변에 머문다. RULER와 Chroma의 보고서가 증명한 컨텍스트 롯(Context Rot) 현상은 입력량이 늘어날수록 모델의 인지 능력이 점진적으로 저하됨을 보여준다. 따라서 자동 요약 기능에 의존해 세션을 늘리기보다, 명확한 명세(Artifact)를 작성해 세션을 짧게 유지하는 워크플로를 설계해야 한다. 결국 LLM의 성능을 결정하는 것은 벤더가 제공하는 창의 크기가 아니라, 사용자가 제어하는 맥락의 밀도다.

1M 토큰 광고의 배신, LLM이 진짜 똑똑한 구간은 100k까지

벤더들이 광고하는 대규모 컨텍스트 창 수치는 실제 사용 가능한

LLM 컨텍스트 창은 약 100k 토큰을 기점으로 스마트

확인해야 할 핵심 지점

관련 기사