평일 오후, 어느 AI 스타트업의 추론 서버 모니터링 화면에 경고등이 들어온다.

128K 이상의 장문 컨텍스트를 처리하자 KV 캐시 메모리가 임계치에 도달하며 응답 속도가 급격히 떨어진다. 개발자는 메모리 부족(OOM) 오류를 막기 위해 컨텍스트 길이를 강제로 제한하는 설정을 만진다. GPU 메모리라는 물리적 벽 앞에서 모델의 지능보다 '기억의 비용'이 더 큰 제약이 된 상황이다.

모델의 전체 파라미터 규모를 유지하면서 추론 시 메모리 점유율만 획기적으로 낮추는 설계 방식이 빠르게 확산하고 있다. 단순히 모델을 작게 만드는 '경량화'가 아니라, 연산의 흐름과 저장 방식을 바꾸는 '구조적 최적화'의 시대가 왔다. 구글과 딥시크를 필두로 한 최신 모델들은 이제 트랜스포머의 기본 골격은 유지하되, 내부의 어텐션과 잔차 경로를 정밀하게 깎아내며 효율성의 판도를 바꾸고 있다.

Gemma 4부터 DeepSeek V4까지, 4~5월의 아키텍처 격변

구글의 Gemma 4 제품군은 디바이스 환경에 따라 E2B, E4B, 26B MoE(Mixture of Experts, 전문가 혼합), 31B dense 모델이라는 네 가지 체급으로 운영된다. 핵심은 계층 간 KV 공유(cross-layer attention) 설계다. 후반부 레이어가 이전 비공유 레이어의 KV 텐서를 재사용하며 캐시 크기를 절반으로 줄였다. E2B는 35개 레이어 중 15개만 자체 KV를 계산하고, E4B는 42개 중 24개만 계산한다. 128K 컨텍스트 기준 E2B는 2.7GB, E4B는 6GB의 메모리를 절감했다. 여기에 PLE(Per-Layer Embeddings, 레이어별 임베딩)를 도입해 파라미터 효율을 높였다. 토큰 ID가 레이어별 룩업을 거쳐 생성된 벡터를 트랜스포머 블록 외부에서 준비해 더하는 방식이다. 덕분에 E2B는 2.3B, E4B는 4.5B라는 작은 유효(effective) 파라미터 사이즈로 메인 연산을 수행하면서도, 전체 용량은 각각 5.1B와 8B로 유지해 모델 용량을 확보했다.

Laguna XS.2는 40개 레이어 중 30개에는 슬라이딩 윈도우를, 10개에는 전체 어텐션을 배치하는 레이어별 어텐션 예산 책정(layer-wise attention budgeting) 방식을 도입했다. 슬라이딩 윈도우 레이어에는 KV 헤드당 8개의 쿼리 헤드를, 비용이 높은 전체 어텐션 레이어에는 6개를 할당해 자원을 차등 배분했다. ZAYA1-8B는 CCA(Compressed Convolutional Attention, 압축 컨볼루션 어텐션)를 통해 연산 지형을 바꿨다. Q, K, V를 모두 압축한 뒤 잠재 공간에서 직접 어텐션을 수행해 KV 캐시와 FLOPs(Floating Point Operations, 부동 소수점 연산량)를 동시에 낮췄다. 특히 압축된 Q와 K에 컨볼루션 믹싱을 추가해 로컬 컨텍스트를 보강했다. 이는 잠재 공간 압축으로 인해 발생하는 표현력 저하를 저비용으로 해결하려는 포석이다.

DeepSeek V4는 mHC(Manifold-Constrained Hyper-Connections, 매니폴드 제약 하이퍼 연결)를 통해 단일 잔차 스트림을 여러 병렬 스트림으로 확장하는 결과를 냈다. 이를 doubly stochastic matrices(이중 확률 행렬) 매니폴드에 사영해 신호 증폭과 축소를 제어했다. Pre Mapping과 Post Mapping 역시 비음수 및 유계로 제약해 깊은 모델에서도 스케일링 안정성을 확보했다. 장문 컨텍스트 대응을 위해서는 CSA(Compressed Sparse Attention, 압축 희소 어텐션)와 HCA(Heavily Compressed Attention, 고압축 어텐션)를 교차 배치했다. CSA는 약한 압축과 top-k 선택을 결합했고, HCA는 128개 토큰을 1개 엔트리로 압축해 덴스 어텐션을 수행한다. 1M 토큰 컨텍스트 기준, V4-Pro는 V3.2 대비 FLOPs를 27%, KV 캐시를 10% 수준으로 줄였다. V4-Flash는 여기서 더 나아가 FLOPs 10%, KV 캐시 7%라는 극단적인 효율을 달성했다.

'단순 압축' 넘어선 '전략적 재배치': MLA vs CCA vs CSA/HCA

MLA가 KV 캐시의 물리적 크기를 줄이는 데 집중했다면, ZAYA1-8B의 CCA(Compressed Convolutional Attention)는 연산 효율성 자체를 정조준한다. MLA는 잠재 표현을 통해 캐시를 축소한 뒤 다시 헤드 공간으로 프로젝션해 연산하는 구조다. 반면 CCA는 쿼리, 키, 밸류를 모두 압축한 잠재 공간에서 직접 어텐션 연산을 수행한다. 이 지점에서 단순한 메모리 절감을 넘어 prefill과 학습 단계의 FLOPs(부동소수점 연산량)까지 깎아내는 실질적인 비용 절감이 일어난다. 이는 추론 비용의 임계점을 낮추려는 전략적 포석이다.

DeepSeek V4의 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)는 토큰 단위가 아닌 시퀀스 차원에서 여러 토큰 그룹을 하나의 엔트리로 요약하는 방식을 취한다. MLA가 토큰당 하나의 잠재 KV 엔트리를 유지하는 토큰별 압축 방식이라면, CSA와 HCA는 시퀀스 차원을 따라 여러 토큰 그룹을 하나의 엔트리로 요약한다. CSA는 압축률을 m=4 수준으로 낮게 유지하며 top-k 선택 방식을 결합해 디테일을 보존한다. HCA는 m'=128이라는 강한 압축을 적용해 128개 토큰을 단 하나의 엔트리로 밀어 넣고 그 위에서 dense attention을 수행한다. 토큰 단위의 정밀함을 일부 희생하는 대신 1M 토큰 이상의 초장문 컨텍스트를 처리 가능한 지형을 구축한 셈이다.

mHC(Manifold-Constrained Hyper-Connections)를 적용하자 모델 깊이가 깊어질 때 발생하는 스케일링 불안정성이 해결되었다. 기존의 하이퍼 커넥션이 학습 가능한 행렬을 통해 잔차 스트림을 확장했다면, mHC는 이 매핑을 doubly stochastic matrices 매니폴드에 사영한다. 모든 항을 비음수로 제한하고 행과 열의 합을 1로 고정해 정보의 재분배를 안정화한 설계다. Pre Mapping과 Post Mapping 역시 비음수 및 유계로 제약해 신호의 증폭이나 상쇄를 막았다. 이는 파라미터 수를 무작정 늘리지 않고도 모델의 표현력을 확장하려는 효율 중심의 아키텍처 전략이다. 결과적으로 DeepSeek V4-Pro는 V3.2 대비 단일 토큰 추론 FLOPs를 27%, KV 캐시 크기를 10%까지 낮추며 연산 효율의 새로운 기준점을 제시했다.

추론 비용의 하락과 '코드 복잡도 10배'의 트레이드오프

V4-Pro는 V3.2와 비교해 단일 토큰 추론 FLOPs를 27% 낮추고 KV 캐시를 10% 수준으로 압축했다. V4-Flash는 더 극단적이다. FLOPs 10%, KV 캐시 7% 수준으로 절감하며 추론 비용의 임계점을 무너뜨렸다. 이는 하드웨어 물량 공세에서 소프트웨어 아키텍처 최적화로 산업의 판도가 이동하고 있음을 증명한다. 추론 비용의 하락은 곧 서비스 단가 하락과 사용자 경험 개선으로 직결된다.

128K 컨텍스트 기준 E2B 모델은 2.7GB, E4B 모델은 약 6GB의 KV 캐시를 절감하는 수치를 기록했다. 계층 간 KV 공유라는 설계적 선택이 메모리 점유율을 획기적으로 낮춘 결과다. 하드웨어 제약을 소프트웨어로 우회하며 모바일과 IoT 디바이스라는 실질적 서비스 가능 범위를 확장했다. 이는 클라우드 의존도를 낮추고 온디바이스 AI 시장을 선점하려는 전략적 포석이다.

코드 복잡도가 과거보다 약 10배 증가한 점은 효율성을 위해 지불해야 할 대가다. 과거 기본 트랜스포머 블록은 파이토치(PyTorch) 코드 50~100줄 내외로 구현 가능했다. 하지만 최신 어텐션 변형 기법들이 겹겹이 도입되면서 코드 복잡도는 약 10배 증가했다. 이제는 단순한 모델 호출을 넘어 아키텍처 내부의 복잡한 상호작용을 정밀하게 제어해야 한다. 개발자에게는 기술적 진입 장벽이 높아졌으나 기업에는 런타임 비용 절감이라는 실리를 제공하는 트레이드오프가 발생했다. 고도로 최적화된 아키텍처를 설계할 수 있는 인적 자원이 곧 기업의 경쟁력이 되는 지형이다.

ZAYA1-8B(Zyphra 개발 모델)는 NVIDIA나 Google 칩이 아닌 AMD GPU에서 학습되며 하드웨어 종속성을 낮추는 가능성을 보여줬다. 압축된 잠재 공간에서 직접 연산하는 CCA(Compressed Convolutional Attention, 압축 컨볼루션 어텐션) 같은 효율적 설계가 하드웨어의 물리적 한계를 상쇄했다. 특정 벤더의 칩셋에 묶이지 않고도 고성능 모델을 구현할 수 있는 경로를 확보했다. 이는 AI 인프라 투자 흐름이 특정 하드웨어 독점에서 아키텍처 최적화 경쟁으로 분산되는 신호다.