긴 문맥을 처리하는 거대언어모델을 서비스하는 엔지니어는 늘 네트워크 병목이라는 벽에 부딪힌다. 입력값을 처리하는 프리필 단계와 토큰을 생성하는 디코드 단계를 분리해 효율을 높이려 해도, 그 사이에서 주고받아야 하는 KVCache(Key-Value Cache, 이전 토큰의 계산 값을 저장하는 메모리)의 크기가 너무 커서 문제다. 결국 고가의 RDMA(Remote Direct Memory Access, 원격 직접 메모리 액세스) 네트워크가 구축된 단일 데이터센터, 심지어는 같은 랙 안에서만 모든 작업을 처리해야 하는 제약이 발생한다.

PrfaaS의 1조 파라미터 모델 처리 성능과 하드웨어 구성

Moonshot AI와 칭화대학교 연구진은 이러한 제약을 깨기 위해 PrfaaS(Prefill-as-a-Service, 프리필 전용 서비스)라는 교차 데이터센터 서빙 아키텍처를 제안한다. 이 시스템은 연산 집약적인 프리필 작업을 별도의 고성능 컴퓨팅 클러스터로 오프로딩하고, 생성된 KVCache를 일반적인 이더넷(Ethernet, 표준 유선 네트워크)을 통해 로컬 디코드 클러스터로 전송한다. 연구진이 내부적으로 사용한 1조 파라미터 하이브리드 모델의 사례 연구 결과, 기존의 단일 구성 방식보다 추론 처리량이 54% 향상된 것으로 관찰된다.

단순히 하드웨어 성능 차이로 인한 결과는 아니다. 동일한 하드웨어 비용으로 비교했을 때도 약 15%의 처리량 이득이 확인되었다. 전체 54%의 성능 향상은 프리필 단계에 연산 능력이 높은 H200 GPU를 배치하고, 디코드 단계에 H20 GPU를 배치하는 이기종 구성의 최적화가 더해진 결과다. 이 과정에서 사용된 모델로는 Kimi Linear, MiMo-V2-Flash, Qwen3.5-397B, Ring-2.5-1T 등이 언급된다.

하이브리드 어텐션이 가능하게 한 KVCache의 경량화

이전까지 교차 데이터센터 전송이 불가능했던 이유는 GQA(Grouped Query Attention, 쿼리 그룹화 어텐션)를 사용하는 밀집 모델의 KVCache 크기가 너무 컸기 때문이다. MiniMax-M2.5 모델의 경우 32K 토큰 요청 시 단일 8xH200 인스턴스에서 약 60Gbps의 KVCache를 생성하며, 이는 일반 이더넷으로는 감당할 수 없는 수준이다. 하지만 최근 등장한 하이브리드 어텐션 스택은 상황을 바꾼다.

KDA(Kimi Delta Attention, 키미 델타 어텐션), MLA(Multi-head Latent Attention, 멀티헤드 잠재 어텐션), SWA(Sliding Window Attention, 슬라이딩 윈도우 어텐션) 같은 선형 복잡도 레이어를 혼합하면, 시퀀스 길이에 따라 KVCache가 선형적으로 증가하는 구간이 대폭 줄어든다. 실제로 MiMo-V2-Flash는 32K 토큰 기준 KVCache 생성량이 4.66Gbps로, MiniMax-M2.5 대비 약 13배 감소했다. Ring-2.5-1T 모델은 MLA를 통한 4.5배 압축과 7:1의 하이브리드 비율을 통해 총 36배의 메모리 절감 효과를 거두었다. 1조 파라미터 모델의 경우 3.19Gbps 수준까지 떨어져 현대의 데이터센터 간 이더넷 링크로 충분히 전송 가능한 범위에 들어온다.

PrfaaS는 이를 실무적으로 구현하기 위해 길이 기반 임계값 라우팅을 도입한다. 캐시된 접두사를 제외한 추가 프리필 길이가 임계값 t보다 크면 PrfaaS 클러스터로 보내고, 작거나 같으면 로컬에서 처리한다. 사례 연구에서 최적의 임계값은 19.4K 토큰으로 설정되었으며, 이를 통해 전체 요청의 약 50%에 해당하는 긴 문맥 요청을 효율적으로 분산했다. 또한 전송 효율을 높이기 위해 레이어별 프리필 파이프라이닝과 멀티 커넥션 TCP(Transmission Control Protocol, 인터넷 연결 관리 표준 프로토콜) 전송 메커니즘을 적용하여 네트워크 혼잡을 최소화했다.

LLM 서빙의 병목은 이제 네트워크의 물리적 한계가 아니라 모델 아키텍처의 효율성 문제로 옮겨갔다.