"토큰 93% 줄이고 캐시 96% 덜어낸다", LLM 에이전트·구조의 실무적 진화

LLM 에이전트의 상태 외부화와 추론 논리 내재화 전략

긴 호흡의 작업을 수행하는 에이전트는 토큰 비용 증가와 컨텍스트 병목 문제를 겪는다. 이를 해결하기 위해 연구는 상태 외부화와 추론 논리 내재화라는 두 가지 방식으로 진행된다. Harness-1과 AdaCoM은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 분리해 작업 안정성을 높인다. 반면 Latent Agents와 Subterranean Agents는 외부 오케스트레이터나 다중 에이전트 간의 통신 과정을 단일 모델의 가중치 내부로 컴파일하는 사후학습을 통해 추론 비용과 토큰 사용량을 낮춘다.

상태 외부화 하네스를 적용한 20B 규모의 검색 에이전트 Harness-1은 정책 내부의 상태 관리 부담을 하네스로 분리해 환경 측 작업 기억을 직접 관리하게 했다. 이 모델은 웹, 금융, 특허, 멀티홉 QA를 아우르는 8개 검색 벤치마크에서 평균 0.730의 선별 리콜(curated recall)을 달성했다. 이는 기존 오픈 소스 검색 서브에이전트보다 11.4포인트 높은 수치이며, 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 뚜렷했다.

이처럼 에이전트 설계는 관리 부담을 외부로 밀어내어 안정성을 확보하거나, 통신 논리를 모델 내부에 압축해 효율을 극대화하는 방향으로 나뉜다. 각 방식은 작업의 복잡도와 허용 가능한 추론 비용에 따라 선택된다.

추론 비용 절감을 위한 아키텍처 최적화와 자가 치유

LLM 에이전트의 과도한 토큰 비용과 컨텍스트 윈도우 관리 문제를 해결하기 위해 모델 아키텍처를 최적화하는 시도가 이어지고 있다. 기존 표준 방식은 쿼리(Query), 키(Key), 밸류(Value)를 모두 분리해 처리하지만, Q-K=V 방식은 키와 밸류의 투영 방식을 공유해 메모리 사용량을 줄인다. 이를 GQA(Grouped-Query Attention)나 MQA(Multi-Query Attention)와 결합하면 KV 캐시(Key-Value Cache)를 96.9%까지 절감할 수 있어 추론 비용을 낮추고 온디바이스 배포 가능성을 높인다.

MOSS(에이전트 시스템)는 프롬프트 수정을 넘어 소스 코드 수준의 재작성을 수행한다. 시스템 운영 중 발생한 실제 실패 사례를 바탕으로 코드 구조의 결함을 분석하고 스스로 수정한다. 재작성된 코드는 검증 과정을 거치며, 배포 후 오류가 발견되면 즉시 이전 상태로 되돌리는 롤백 방식을 적용해 시스템 구조의 결함을 해결한다.

다중 에이전트 토론의 단일 모델 증류와 정보 검색 최적화

다중 에이전트가 최적의 답을 찾기 위해 주고받는 토론 과정은 토큰 비용을 급격히 증가시킨다. Latent Agents는 이 토론 과정을 단일 LLM 내부로 증류하는 사후학습 절차를 도입했다. 모델이 외부 오케스트레이션 없이 내부에서 스스로 토론하거나 절차적 추론을 수행하게 함으로써 토큰 사용량을 최대 93%까지 줄였으며, 명시적 토론(explicit debate) 방식과 동등하거나 더 나은 성능을 유지했다. 추론 논리를 모델 가중치 내부로 내재화해 매 요청마다 반복되던 외부 통신 비용을 제거한 결과다.

방대한 문서 처리 시 핵심 정보를 놓치는 문제는 SISA(Forget Attention)가 해결한다. SISA는 상태 공간 모델(SSM, State Space Model)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 점수 수준 융합 방식을 사용한다. 단일 SDPA(Scaled Dot-Product Attention) 호출만으로 구현 가능해 시스템 복잡도를 낮추면서도 전역 검색 능력과 순차적 우선순위 판단을 동시에 수행한다. 이를 통해 긴 컨텍스트에서도 텍스트의 장거리 의존성을 복원하고 정보 유실 없는 검색 성능을 구현했다.

에이전트 구축 과정에서 직면하는 토큰 비용과 컨텍스트 윈도우의 한계는 더 이상 프롬프트 튜닝만으로 해결할 수 없다. 추론 논리를 모델 가중치로 컴파일하고 Q-K=V 투영 방식과 MQA를 결합해 자원 소모를 획기적으로 낮추는 설계가 필수적이다. 이제 아키텍처 선택의 기준은 단순한 성능을 넘어 추론 비용(OPEX)의 실질적 절감과 온디바이스 배포 가능성으로 이동하고 있다. 에이전트의 실무적 완성도는 모델의 지능이 아니라 자원 효율성을 제어하는 설계 능력에서 결정된다.

"토큰 93% 줄이고 캐시 96% 덜어낸다", LLM 에이전트·구조의 실무적 진화

LLM 에이전트의 상태 외부화와 추론 논리 내재화 전략

추론 비용 절감을 위한 아키텍처 최적화와 자가 치유

다중 에이전트 토론의 단일 모델 증류와 정보 검색 최적화

관련 기사