facts
NYU, 컬럼비아대, 프린스턴대, 메릴랜드대, 하버드대, 로런스 리버모어 국립연구소 공동 연구진이 입력 컨텍스트를 압축해 처리하는 LCLM(Latent Context Language Models) 모델군을 공개했다. LCLM은 인코더-디코더 구조의 압축 모델로, 디코더에 도달하기 전 입력 컨텍스트를 먼저 압축하는 방식을 취한다.
모델 아키텍처는 0.6B(6억 개) 파라미터의 인코더와 4B(40억 개) 파라미터의 디코더로 구성된다. 학습에는 3,500억 개 이상의 토큰이 사용되었으며, 연구진은 아키텍처 탐색을 통해 인코더보다 디코더의 규모를 확장하는 것이 성능 향상에 더 효과적임을 확인했다.
RULER 롱 컨텍스트 벤치마크 측정 결과, 4배 압축 시 정확도는 91.76%로, 압축하지 않았을 때의 94.41%와 비교해 3%p 미만의 하락폭을 보였다. 16배 압축(입력 토큰의 93.75% 제거) 시 정확도는 75.06%로 떨어졌으나, 동일한 압축률을 적용한 모든 KV 캐시(Key-Value Cache) 방식보다 높은 점수를 기록했다. 특히 16배 압축 설정에서 출력 속도는 KV 캐시 베이스라인 대비 8.8배 빨라졌다. 수학 문장제 문제 데이터셋인 GSM8K에서도 압축률과 상관없이 테스트된 다른 모든 방법보다 높은 점수를 기록했다.
how-it-works
LCLM의 작동 방식은 기존의 KV 캐시 압축 방식과 근본적으로 다르다. 기존 방식은 전체 KV 캐시를 먼저 생성한 뒤 불필요한 항목을 제거(Eviction)하는 구조다. 반면 LCLM은 디코더의 프리필(Prefill) 단계 이전에 입력 토큰 시퀀스를 직접 압축한다. 이로 인해 높은 압축률이 디코더 측의 연산량과 메모리 사용량 감소로 직접 연결되어 추론 속도가 향상된다.
학습 과정에서는 세 가지 데이터 유형을 혼합한 레시피를 사용했다.
1. 압축된 구간과 압축되지 않은 구간이 교차 배치된 지속적 사전 학습(Continual pre-training) 데이터
2. 추론 및 롱 컨텍스트 작업을 포함한 지도 미세 조정(SFT) 데이터
3. 인코더가 세부 정보를 유지하도록 강제하는 보조 재구성(Auxiliary reconstruction) 작업
이러한 조합은 재구성 정확도를 높이려 할 때 일반 작업 성능이 떨어지는 기존 압축 모델의 트레이드오프 문제를 해결한다. 인코더는 입력 토큰 블록을 짧은 잠재 임베딩(Latent embeddings) 시퀀스로 압축하며, 디코더는 원본 토큰 대신 이 임베딩을 처리한다.
implementation-impact
인프라 관점에서 가장 먼저 확인되는 변화는 메모리 점유율이다. 표준 KV 캐시 방식을 사용할 경우, 100만 토큰의 압축되지 않은 추론은 단일 H200 GPU에서 메모리 부족(OOM) 현상을 일으킨다. 하지만 LCLM을 16배 압축해 적용하면 동일한 컨텍스트 길이에서도 메모리 한계 범위 내에서 작동한다.
개발자가 기존 스택에 LCLM을 도입하려면 기존 LLM을 LCLM으로 교체하고, RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인에서 모델 컨텍스트에 문서를 넣기 전 LCLM 압축기를 먼저 거치도록 구성해야 한다. 다만, 기존 RAG 파이프라인을 사용하는 팀은 대규모 배포 전 검색 품질 지표에 따른 압축 동작을 반드시 검증하고 튜닝해야 한다.
운영 시 제약 사항도 존재한다. 현재 LCLM은 문서 검색 결과의 압축에는 효과적이지만, 에이전트가 생성하는 추론 경로(Reasoning traces)의 온라인 압축은 아직 해결되지 않은 과제다. 생성 과정에서 주기적으로 추론 경로를 압축하는 단순한 접근법이 가능할 수 있으나, 이에 대한 검증은 이루어지지 않았다.
모델과 코드는 다음 리소스에서 확인할 수 있다.
- Hugging Face: huggingface.co/latent-context
- GitHub: github.com/LeonLixyz/LCLM
- 연구 논문: https://arxiv.org/pdf/2606.09659




