Together AI, 2비트 KV 캐시 압축 'OSCAR' 공개

0.24%.

128K라는 방대한 컨텍스트 길이 속에서 BF16 정밀도로 유지되는 싱크(Sink)와 최근 윈도우 토큰이 차지하는 비중이다. 거의 모든 데이터를 2비트로 깎아내고도, 단 0.24%의 핵심 데이터만으로 모델의 지능을 유지하는 셈이다.

그런데 지금까지 개발자들 사이에서 2비트 KV 캐시는 '정확도가 박살 나는 금단의 영역'으로 통했다. 단순한 양자화로는 어텐션 퀄리티를 유지할 수 없었기 때문이다. 특히 2비트(INT2)는 표현 가능한 레벨이 4개뿐이라, 몇 개의 튀는 값(Outlier)이 스케일 팩터를 지배하면 나머지 일반 값들이 모두 뭉개지는 현상이 발생한다. 기존의 하다마르 변환(Hadamard transform) 같은 회전 방식이 INT4에서는 통했지만, INT2에서는 데이터의 특성을 무시한 채 오차를 균등하게 뿌리는 한계가 있었다.

지금 커뮤니티가 뜨거운 이유는 Together AI가 공개한 OSCAR(Offline Spectral Covariance-Aware Rotation)가 이 지점을 정확히 파고들었기 때문이다. 단순히 값을 섞는 게 아니라, 어텐션 메커니즘이 실제로 '어디를 읽는지' 통계적으로 분석해 회전 행렬을 설계했다. 이제 개발자들은 메모리 트래픽의 주범인 KV 캐시를 8배 압축하면서도, 성능 하락 없이 100K 이상의 롱컨텍스트를 서빙할 수 있는 실질적인 무기를 갖게 됐다.

Together AI, INT2 KV 캐시 시스템 'OSCAR' 공개

GPU 메모리 점유율의 주범은 롱 컨텍스트 추론 시 급격히 늘어나는 KV 캐시(Key-Value Cache, 추론 시 이전 토큰의 정보를 저장하는 메모리 공간)다. 특히 수십 개의 동시 요청이 100K 토큰 이상의 컨텍스트를 처리할 때 메모리 부족 문제는 개발자들에게 고질적인 병목이었다. Together AI가 공개한 OSCAR(Offline Spectral Covariance-Aware Rotation)는 이 지점을 정조준한다. 기존의 2비트 양자화는 정확도가 급락하거나 Paged Attention(메모리를 페이지 단위로 관리해 효율을 높이는 기술) 시스템과 호환되지 않는 문제가 있었지만, OSCAR는 이를 해결하며 SGLang(LLM 서빙 프레임워크) 프로덕션 스택에 INT2 KV-캐시 모드로 통합됐다.

핵심은 단순히 데이터를 압축하는 것이 아니라 회전(Rotation) 기법을 통해 이상치(Outlier)를 분산시키는 방식에 있다. 기존의 하다마르 변환 같은 방식은 데이터의 특성을 무시한 채 균일하게 에너지를 퍼뜨렸지만, OSCAR는 어텐션 통계 자체에서 회전 기반을 도출한다. 키(Key)의 경우 쿼리 공분산을 추정해 고유벡터를 회전 기반으로 사용하고, 밸류(Value)는 스코어 가중치 밸류 공분산을 활용한다. 이 과정에서 BF16 정밀도를 유지하는 싱크(Sink) 토큰과 최신 윈도우 영역을 별도로 두어 정확도 손실을 최소화했다. 128K 컨텍스트 길이에서 이 영역들이 차지하는 비중은 전체의 0.24%에 불과하지만, 모델의 성능 유지에는 결정적인 역할을 한다. 개발자들 사이에서는 단순한 압축을 넘어 어텐션 메커니즘이 실제로 읽는 방향을 고려했다는 점에서 기술적 완성도가 높다는 반응이 나온다.

실제 성능 수치는 더 뜨겁다. Qwen3-4B-Thinking-2507, Qwen3-8B, Qwen3-32B 그리고 358B 파라미터 규모의 GLM-4.7-FP8 모델을 대상으로 테스트한 결과, 메모리 사용량을 8배 줄이면서도 처리량(Throughput)을 비약적으로 높였다. 특히 H100 GPU 기준, 100K 컨텍스트와 배치 사이즈 32 환경에서 Qwen3-4B-Thinking은 BF16 대비 6.17배, GLM-4.7-FP8은 7.83배의 처리량 향상을 기록했다. 이는 기존의 QuaRot-INT2나 TurboQuant 같은 방식이 2비트 영역에서 정확도가 급락하거나 더 많은 비트를 소모해야 했던 것과 대조적이다. 컨텍스트가 길어질수록 디코딩 성능이 KV 대역폭에 묶이는 병목 현상이 심해지는데, OSCAR가 이 병목을 직접적으로 제거한 셈이다. 관련 구현체는 GitHub(https://github.com/sgl-project/sglang)에서 확인할 수 있으며, 실제 서빙 환경에서 메모리 비용을 극단적으로 낮추려는 시도가 이어지고 있다.

어텐션 통계 기반 회전과 Triton 커널의 결합

기존의 회전 기반 양자화는 데이터의 특성을 고려하지 않는 데이터-오블리비어스(Data-oblivious) 방식이었다. OSCAR는 단순한 값의 분포가 아니라 어텐션 메커니즘이 실제로 데이터를 읽는 방향에 집중한다. 키(Key) 회전의 경우 유클리드 재구성 오차가 아니라 어텐션 로짓의 오차를 최소화하는 것이 핵심이다. 쿼리가 큰 에너지를 가진 방향에서 양자화 오차가 증폭되기 때문에, 이를 제어하기 위해 쿼리 공분산 CQ = (1/N) Σ qn⊤qn의 고유벡터 UQ를 도출해 회전 기저로 사용한다. 밸류(Value) 회전 역시 어텐션 출력값에 영향을 주는 스코어 가중치 값 공분산 CS = (1/N) V⊤S⊤SV의 고유벡터 US를 활용한다. 최종적인 회전식은 RK = UQ · HHad · Pbr과 RV = US · HHad · Pbr로 정의되며, 이는 양자화 오차를 중요도가 낮은 방향으로 정교하게 밀어내는 구조다.

이 복잡한 수학적 연산을 실제 추론 속도로 연결하는 지점은 Fused Triton kernels(GPU 가속을 위해 작성된 저수준 커널) 기반의 읽기 및 쓰기 경로 구현이다. 쓰기 경로에서는 각 토큰이 회전된 후, 캘리브레이션으로 도출된 임계값 cK = 0.96과 cV = 0.92를 기준으로 클리핑되어 이상치 영향을 최소화한다. 이후 기본 그룹 크기 GK = 64채널 단위로 per-token asymmetric INT2(토큰별 비대칭 2비트) 양자화가 수행된다. 읽기 경로에서는 INT2 커널이 바이트를 언팩하고 역양자화와 역회전을 거쳐 어텐션 커널로 결과를 전달하는데, 이 모든 과정이 추가적인 메모리 트래픽을 발생시키지 않고 하나의 퓨즈드 패스로 처리된다. 이러한 통합 구현은 메모리 읽기 및 쓰기 횟수를 획기적으로 줄여 실제 처리량을 높이는 핵심 동력이 된다.

개발자 커뮤니티에서 특히 뜨거운 반응을 보이는 부분은 밸류 회전 행렬 RV의 처리 방식이다. 이 연산을 온라인에서 수행하지 않고 모델의 프로젝션 가중치에 오프라인 상태로 미리 흡수시켜 실시간 계산 비용을 완전히 제거했다. 이는 디코딩 과정이 KV 캐시의 메모리 대역폭에 의해 제한되는 병목 현상을 정확히 짚어낸 설계라는 분석이다. 단순한 정밀도 하락을 감수하는 양자화가 아니라, 통계적 근거를 바탕으로 최적의 회전 행렬을 찾고 이를 하드웨어 가속 커널로 최적화했다는 점에서 구현의 완성도가 높다는 평가가 지배적이다. 특히 2비트라는 극한의 압축률에서도 모델이 작동하게 만든 수학적 증명과 커널 최적화의 결합이 지금의 관심을 끌어내고 있다.

Naive INT2 0점 vs OSCAR 71.86점의 격차

개발팀이 공개한 수치는 여기서 갈린다. 단순하게 2비트로 밀어붙인 Naive INT2(단순 정수 양자화) 방식은 Qwen3-4B와 8B 모델 모두에서 0.00점이라는 처참한 성적표를 받았다. 사실상 모델의 지능이 완전히 붕괴되었다는 뜻이다. 그나마 대안으로 꼽혔던 QuaRot-INT2(아다마르 변환 기반 양자화) 역시 Qwen3-4B에서 1.40점, 8B에서 10.14점에 그치며 실용성 없는 수준임을 드러냈다. 기존의 회전 방식들이 데이터의 특성을 전혀 고려하지 않는 데이터 무관(Data-oblivious) 방식이었기에, 2비트라는 극단적인 압축 환경에서 발생하는 오차를 제어하지 못하고 전체 성능을 갉아먹은 결과다.

현장의 개발자들이 특히 경악하는 지점은 비트 수 대비 정확도의 효율이다. TurboQuant(터보퀀트)는 3.25비트를 사용했음에도 Qwen3-4B-Thinking 모델에서 무려 43.90점의 점수 하락을 겪으며 저비트 양자화가 얼마나 위험한 도박인지를 보여줬다. 반면 OSCAR(오프라인 스펙트럼 공분산 인식 회전)는 단 2.28비트만으로 Qwen3-4B 기준 71.86점을 기록하며 판도를 바꿨다. 이는 4.25비트를 쏟아부어 73.11점을 얻은 Saw-INT4(쏘-INT4)와 비교하면 매우 공격적인 수치다. 비트 수를 거의 절반 수준으로 줄였음에도 성능 격차는 단 1.25점에 불과하다는 점이 지금 커뮤니티에서 가장 뜨겁게 논의되는 핵심이다.

AIME25(수학 추론 벤치마크) 결과는 OSCAR의 압도적인 우위를 더욱 명확하게 입증한다. Qwen3-8B 모델에서 OSCAR는 2.38 BPE(요소당 비트 수)로 66.67점을 기록하며 경쟁 모델들을 가볍게 따돌렸다. 비슷한 비트 수를 사용한 2.26 BPE의 KIVI-KV2*가 57.67점, 2.39 BPE의 Kitty가 59.67점을 기록한 것과 비교하면 그 격차는 더욱 극명하다. 이는 단순한 최적화의 승리가 아니라 작동 원리의 근본적인 차이에서 기인한다. OSCAR는 단순히 값의 범위를 고르게 펴는 것에 그치지 않고, 쿼리 공분산을 분석해 중요도가 낮은 방향으로 양자화 오차를 의도적으로 밀어내는 전략을 취했다. 어텐션 메커니즘이 실제로 읽어들이는 핵심 방향을 정밀하게 보존함으로써, 2비트라는 극한의 제약 속에서도 모델이 정상적으로 사고할 수 있는 정확도를 확보한 것이다.

100K 컨텍스트에서 처리량 최대 7.83배 향상

H100 GPU에서 100K 컨텍스트를 처리하는 환경을 구축하면 배치 사이즈 1 기준의 디코드 처리량부터 확연한 차이가 드러난다. 기존 BF16(Bfloat16, 16비트 부동소수점 방식) 환경에서 겪던 지연 시간이 획기적으로 줄어드는 모습이다. 개발자 커뮤니티에서는 단순히 메모리 점유율을 낮춘 수준을 넘어 실제 토큰 생성 속도가 체감될 정도로 빨라졌다는 점에 주목하며 지금의 수치를 빠르게 공유하고 있다.

진짜 파괴력은 배치 사이즈 32로 늘려 대규모 요청을 동시에 처리하는 상황에서 터져 나온다. 100K 컨텍스트 기준 잡 레벨(Job-level, 전체 작업 처리 단위) 처리량을 측정했을 때 Qwen3-4B-Thinking 모델은 6.17배, GLM-4.7-FP8 모델은 최대 7.83배라는 압도적인 향상 폭을 기록했다. 이는 KV 캐시 메모리를 8배나 압축함으로써 LLM 추론의 최대 난제인 KV-bandwidth-bound(KV 캐시 읽기 및 쓰기 대역폭이 전체 연산 속도를 제한하는 병목 현상)를 정면으로 돌파했기 때문이다. 메모리 트래픽이 획기적으로 줄어들자 GPU 연산 유닛이 유휴 시간 없이 가동되며 처리량이 폭발하는 구조다.

속도 향상이 정확도 희생의 결과라는 우려는 GLM-4.7-FP8 모델의 롱 컨텍스트 테스트 결과로 잠재워진다. 128K 컨텍스트 길이에 도달할 때까지 RULER-NIAH(Needle In A Haystack, 방대한 데이터 속에서 특정 정보를 정확히 찾아내는 능력) 강건성을 BF16 수준으로 그대로 유지했다. 2비트 수준의 극한 압축을 적용하고도 모델이 컨텍스트의 맥락을 놓치지 않고 정밀하게 추적한다는 사실은 롱 컨텍스트 모델을 설계하는 실무자들에게 매우 강력한 신호로 읽힌다.

현장 개발자들이 가장 뜨겁게 반응하는 지점은 결국 GPU VRAM(Video RAM, 그래픽 메모리)의 물리적 제약을 극복했다는 실용성이다. 그동안 롱 컨텍스트 서비스의 최대 걸림돌은 메모리 부족으로 인해 배치 사이즈를 키우지 못해 GPU 활용률이 바닥을 치는 현상이었다. 이제는 동일한 H100 장비에서 8배 더 효율적으로 메모리를 쓰며 동시 접속자를 수용할 수 있게 되어 인프라 비용 절감과 서비스 확장성이라는 두 마리 토끼를 잡게 되었다. 커뮤니티에서는 이제 100K 이상의 컨텍스트를 실시간 상용 서비스에 적용하는 것이 단순한 실험이 아닌 현실의 영역으로 들어왔다고 입을 모은다.

한국형 롱컨텍스트 LLM 서빙의 비용 최적화 해법

개발 현장에서 10만 토큰 이상의 롱컨텍스트를 서빙할 때 가장 먼저 마주하는 벽은 GPU 메모리 점유율이다. 배치 사이즈를 조금만 키워도 KV 캐시가 메모리를 전부 잡아먹어 OOM 에러가 뜨는 상황이 빈번하며 이는 곧바로 서비스 비용 상승으로 이어진다. 이를 해결하기 위해 2비트 양자화를 시도하지만 기존 방식들은 정확도가 처참하게 무너지거나 paged-attention 시스템과 호환되지 않는 커스텀 레이아웃을 요구해 실무 적용이 어려웠다. Together AI가 공개한 OSCAR(Offline Spectral Covariance-Aware Rotation)는 바로 이 지점에서 돌파구를 찾았다. 단순한 값의 압축이 아니라 어텐션 통계 기반의 회전 기법을 도입해 2비트 양자화에서도 모델이 작동하게 만드는 실무적 해법을 제시했다.

기술적 핵심은 쿼리 공분산과 스코어 가중치 값 공분산을 이용해 최적의 회전 기저를 찾는 것이다. 기존의 하다마르 변환 같은 방식은 데이터의 특성을 무시하고 일괄적으로 값을 펴주었기에 2비트라는 극단적인 압축 환경에서는 한계가 명확했다. OSCAR는 어텐션 메커니즘이 실제로 읽어들이는 방향을 분석해 양자화 오차를 중요도가 낮은 방향으로 밀어내는 전략을 취한다. 특히 SGLang(SGLang: 구조화된 생성 언어 모델 서빙 프레임워크) 프로덕션 스택에 통합되어 별도의 커스텀 레이아웃 없이 즉시 적용 가능하다는 점이 개발자들 사이에서 뜨거운 반응을 얻고 있다. BF16 정밀도를 유지하는 싱크와 최근 윈도우 영역을 두고 나머지를 INT2로 처리하는 하이브리드 구조를 통해 정확도 손실을 최소화하면서 메모리 효율을 극대화했다.

실제 벤치마크 수치는 인프라 비용 절감 가능성을 명확히 보여준다. GLM-4.7-FP8 모델 기준으로 10만 토큰 컨텍스트에서 배치 사이즈 32를 적용했을 때 BF16 대비 최대 7.83배의 처리량 향상을 기록했다. Qwen3-4B-Thinking 모델에서도 6.17배의 속도 향상이 나타났는데 이는 디코딩 과정이 KV 대역폭에 의해 제한되는 병목 현상을 8배의 메모리 감소로 정면 돌파했기 때문이다. 2.28비트라는 극소량의 메모리 사용량으로도 성능을 유지한다는 점은 고가의 H100 인프라 의존도를 낮춰야 하는 국내 AI 서비스 기업들에게 실질적인 비용 최적화 경로를 제공한다. 퓨즈드 트리톤 커널을 통해 읽기 및 쓰기 경로의 메모리 트래픽을 최적화한 구현체는 GitHub와 Modelscope에서 확인할 수 있으며 상세 이론은 arXiv 논문에 수록되어 있다.