Zyphra, 7.7배 빠른 MoE 확산 모델 ZAYA1-8B 공개

7.7x. 이번에 Zyphra가 공개한 ZAYA1-8B-Diffusion-Preview가 기존 자기회귀(Autoregressive) 모델 대비 기록한 추론 속도 향상 수치다. 이 수치는 단순히 연산 속도가 빨라졌다는 의미를 넘어, LLM의 고질적인 병목 지점인 메모리 대역폭 한계를 구조적으로 돌파했음을 시사한다. 마치 좁은 골목길에 차 한 대씩만 지나가던 기존의 방식에서, 한 번에 여러 대의 차량을 동시에 통과시키는 고속도로 차선을 확보한 것과 같은 변화다. 그런데 이 기술은 처음부터 확산 모델로 학습시킨 것이 아니라, 기존에 존재하던 자기회귀 모델을 변환하는 방식을 택했다. 왜 굳이 복잡한 변환 과정을 거쳤는지, 그리고 이 모델이 실제 실무 환경에서 어떻게 작동하는지 그 기술적 배경을 살펴볼 필요가 있다.

Zyphra의 ZAYA1-8B-Diffusion-Preview 주요 사양 및 학습 데이터

이산 확산(Discrete Diffusion) 모델로의 전환은 ZAYA1-8B-Diffusion-Preview가 기존 자기회귀(Autoregressive) 모델과 차별화되는 핵심 지점이다. 일반적인 거대 언어 모델은 토큰을 순차적으로 생성하며 매번 KV-캐시(Key-Value Cache, 이전 토큰의 연산 결과 저장소)를 GPU 메모리에서 불러와야 하므로, 실제 연산 시간보다 데이터 이동 시간이 더 길어지는 메모리 대역폭 병목 현상이 발생한다. 반면 확산 모델은 N개의 토큰 초안을 동시에 생성하고 이를 반복적으로 정교화하는 방식을 취하며, 모든 토큰이 동일한 KV-캐시를 공유하게 함으로써 시스템을 연산 중심 구조로 전환한다. Zyphra는 이러한 구조적 변화를 통해 평가 성능의 체계적인 손실 없이 추론 속도를 대폭 높이는 결과를 도출했다.

변환 학습은 ZAYA1-8B 베이스 체크포인트를 기반으로 TiDAR(확산 기반 언어 모델 학습 레시피) 레시피를 적용하여 진행되었다. 확산 모델을 처음부터 학습시키는 것은 정립된 레시피가 부족해 기술적 난도가 매우 높을 뿐 아니라, 학습 단계는 이미 연산 중심이므로 확산 방식이 주는 메모리 대역폭 이점이 없다. 따라서 Zyphra는 기존의 사전 학습 스택을 재사용하는 변환 전략을 선택했다. 세부적으로는 32k 컨텍스트 길이에서 600B(6,000억 개) 토큰의 확산 변환 학습을 수행한 뒤, 128k까지 컨텍스트를 확장하기 위해 500B 토큰을 추가 학습시켰으며, 최종적으로 확산 지도 미세 조정(SFT, Supervised Fine-Tuning) 단계를 거쳐 완성되었다.

MoE(Mixture of Experts, 전체 파라미터 중 일부 전문가 네트워크만 활성화하여 연산량을 줄이는 방식)를 기반으로 한 최초의 확산 언어 모델이라는 점은 이 모델의 중요한 기술적 특이점이다. 학습과 최적화는 AMD GPU 환경에서 이루어졌으며, 특히 MI300x와 MI355x 하드웨어의 대용량 VRAM을 활용해 학습 효율을 극대화했다. 또한 Zyphra의 CCA(Attention 변형 기술)와 CCGQA(Query-Key 헤드 비율을 4:1로 설정한 구조)를 도입하여 프리필(Prefill, 입력 텍스트를 한꺼번에 처리하는 단계) 연산량을 줄였다. 확산 모델은 디코딩 과정을 프리필과 유사한 병렬 연산으로 변환하므로, CCGQA의 2배 압축 기술과 CCA의 조합은 하드웨어의 계산 한계 내에서 더 많은 토큰을 동시에 처리할 수 있는 기반이 된다. 실제로 MI300x에서는 한 번의 순전파당 약 3개의 블록 제안이 가능하며, MI355x에서는 약 5개까지 확장되는 성능 차이가 확인된다.

TiDAR 레시피와 CCGQA 아키텍처의 동작 원리

기존의 거대언어모델은 한 번에 하나의 토큰을 순차적으로 생성하는 자기회귀(Autoregressive) 방식을 사용한다. 이 과정에서 매 토큰마다 이전 토큰들의 표현값인 KV-캐시(Key-Value Cache)를 GPU 메모리에서 계속 불러와야 하며, 이는 연산 속도보다 데이터 전송 속도가 느려지는 메모리 대역폭 병목 현상을 야기한다. ZAYA1-8B-Diffusion-Preview는 이를 해결하기 위해 단 한 번의 전방 패스(Forward pass)로 16개의 토큰을 동시에 생성하는 병렬 확산 구조를 채택했다. 16개 토큰이 동일한 KV-캐시를 공유함으로써 작업의 성격이 메모리 대역폭 중심에서 연산 중심(Compute-bound)으로 전환되며, 결과적으로 GPU 자원 활용 효율이 극대화되는 관찰 결과가 나타난다. 특히 하나의 모델이 제안자와 검증자 역할을 동시에 수행하므로, 기존의 투기적 디코딩 방식에서 발생하던 모델 간 오버헤드가 제거되는 효과를 거둔다.

CCGQA(Compressed Chunked Grouped Query Attention, 압축 청크 그룹 쿼리 어텐션) 아키텍처는 이러한 병렬 처리 효율을 뒷받침하는 핵심 기술이다. 해당 구조는 쿼리 헤드와 키 헤드의 비율을 4:1로 설정하여 메모리 사용량을 최적화했다. 특히 연산 강도가 지나치게 높은 MLA(Multi-Head Latent Attention) 대신 CCGQA를 선택한 점이 주목된다. 블록 확산 방식에서는 블록 크기와 전방 패스당 블록 수에 따라 연산 강도가 결정되는데, CCGQA의 2배 압축 방식이 TiDAR(TiDAR recipe) 미드트레이닝에 필요한 추가 연산 비용을 감당할 수 있게 했다. 여기에 CCA(Compressed Context Attention, 압축 컨텍스트 어텐션)를 결합해 프리필(Prefill) 단계의 연산량을 대폭 줄였으며, 이는 모델이 연산 한계에 도달하기 전 더 많은 토큰을 병렬로 확산시킬 수 있는 기반이 된다. AMD MI300x 하드웨어 기준 bf16 정밀도에서 전방 패스당 약 3개의 블록 제안을 지원하며, MI355x에서는 이 수치가 5개까지 상승하는 구조적 이점이 관찰된다.

순서 제약 생성(Order constrained generation) 방식은 학습의 안정성을 확보하기 위해 도입된 장치다. 이는 확산 모델이 접두사(Prefix)로부터 시작되는 연속적인 하위 시퀀스 내에서만 토큰을 생성하도록 제한하는 기법이다. 제약 없는 마스크 확산 목적 함수나 세트 블록 디코딩 방식과 비교했을 때, 순서 제약을 적용함으로써 학습 과정의 변동성을 낮추고 안정성을 획기적으로 높였다. Zyphra 팀은 이러한 TiDAR 레시피를 기반으로 ZAYA1-8B 베이스 체크포인트에 6,000억 개의 토큰을 사용한 미드트레이닝과 5,000억 개의 토큰을 통한 컨텍스트 확장, 그리고 확산 지도 미세 조정(SFT) 단계를 거쳐 모델을 완성했다. 이러한 설계는 기존의 자기회귀 모델을 성능 손실 없이 이산 확산 모델로 전환할 수 있음을 시사하며, 관련 상세 구현은 GitHub 저장소에서 확인할 수 있다.

기존 자기회귀 모델 및 EAGLE3와의 성능 비교

추론 모델과 검증 모델의 분리 여부는 개발팀이 공개한 구조적 차이의 핵심이다. 기존의 EAGLE3(Speculative Decoding strategy, 투기적 디코딩 전략)나 dFlash 같은 방식은 작은 크기의 초안 모델이 먼저 토큰을 생성하고, 이를 거대 모델이 사후에 검증하는 이단계 구조를 취한다. 이 과정에서 두 모델 사이의 데이터 교환과 제어 흐름 전환에 따른 오버헤드가 필연적으로 발생하며, 이는 전체 추론 지연 시간에 영향을 미친다. 반면 ZAYA1-8B-Diffusion-Preview는 단일 전방 패스(Single forward pass) 내에서 추론과 검증을 동시에 수행하는 구조를 제안한다. 동일한 모델이 제안자와 검증자 역할을 동시에 수행함으로써 모델 전환 비용을 완전히 제거했으며, 이는 추론 파이프라인을 단순화하고 메모리 효율을 높이는 실무적 이점으로 이어진다.

확산 모델 기반의 접근법은 MTP(Multi-token Prediction, 다중 토큰 예측) 전략과 비교했을 때도 더 높은 속도 향상을 보여준다. 일반적인 자기회귀 모델은 토큰을 하나씩 순차적으로 생성하며, 매 단계마다 이전 토큰들의 표현값이 저장된 KV-캐시(Key-Value Cache)를 GPU 메모리에서 불러와야 한다. 이 과정에서 GPU가 실제 연산보다 데이터를 옮기는 데 더 많은 시간을 소비하는 메모리 대역폭 제한(Memory-bandwidth bound) 현상이 발생하며, 이는 하드웨어 성능을 온전히 활용하지 못하는 병목이 된다. ZAYA1-8B-Diffusion-Preview는 16개의 토큰 초안을 동시에 생성하며, 이 블록 내의 모든 토큰이 동일한 KV-캐시를 공유하도록 설계되었다. 결과적으로 작업의 성격이 메모리 대역폭 제한에서 연산 제한(Compute-bound)으로 전환되며, GPU의 연산 능력을 더 밀도 있게 활용하는 효율성을 확보한다.

성능 지표에서도 단순한 속도 향상을 넘어선 결과가 관찰된다. LCB-v6(LiveCodeBench v6) 벤치마크 등 일부 지표에서는 기존 자기회귀 체크포인트 대비 오히려 향상된 결과가 확인되었다. Zyphra 팀은 이를 확산 스타일의 블록 내 비인과적 추론(Non-causal inference)이 기존의 인과적 자기회귀(Causal autoregression)보다 더 높은 표현력을 갖기 때문으로 분석한다. 특히 메모리 대역폭이 극도로 제한된 환경에서는 수용된 거의 모든 토큰이 추가적인 연산 비용 없이 사실상 무료의 속도 향상분으로 작용한다. 이는 마스크에서 토큰으로의 단일 단계 변환을 수행하는 구조적 특성 덕분이며, 추론 스택의 최적화 수준이 아직 성숙하지 않은 단계에서도 구조적 이점만으로 상당한 성능 이득을 얻을 수 있음을 입증한다.

AMD 하드웨어 MI300x 및 MI355x에서의 실질적 영향

AMD MI300x와 MI355x의 하드웨어 사양 차이는 추론 단계에서 한 번의 포워드 패스(Forward Pass, 모델의 입력이 출력으로 나가는 과정)당 제안 가능한 블록 수의 차이로 직결된다. bf16(Bfloat16, 딥러닝 연산 효율을 높인 부동소수점 형식) 환경에서 MI300x는 단일 패스당 약 3개의 블록 제안을 지원하며, MI355x에서는 이 수치가 약 5개까지 확장되는 것으로 관찰된다. 이는 단순한 수치 증가가 아니라 하드웨어의 연산 능력을 최대한 활용하여 추론 처리량을 극대화하려는 전략적 선택이다. 기존의 자기회귀(Autoregressive) 방식이 메모리 대역폭의 한계로 인해 연산 자원을 충분히 쓰지 못하는 메모리 대역폭 병목 현상을 겪었다면, 디퓨전 방식은 블록 단위의 병렬 처리를 통해 시스템을 연산 중심(Compute-bound) 상태로 전환하며 하드웨어의 실질 가동률을 끌어올린다.

CCGQA(Compressed Grouped Query Attention, 압축된 그룹 쿼리 어텐션) 구조는 이러한 하드웨어 최적화의 중심에 자리 잡고 있다. 쿼리 헤드와 키 헤드의 비율을 4:1로 설정한 이 설계는 연산 강도를 정밀하게 조절하여 하드웨어 특성에 맞춘 최적의 처리량을 찾아낸 결과로 분석된다. 특히 연산 강도가 너무 높은 MLA(Multi-Head Latent Attention, 다중 헤드 잠재 어텐션)를 의도적으로 배제하고 CCGQA를 선택한 점은 블록 디퓨전의 특성상 산술 강도가 블록 크기와 패스당 블록 수에 따라 확장된다는 점을 고려한 설계다. 또한 CCGQA의 2배 압축 기술은 TiDAR(디퓨전 변환 레시피) 적용 과정에서 발생하는 추가적인 학습 연산 비용을 효과적으로 상쇄하며, 이는 모델의 표현력을 유지하면서도 학습 효율성을 확보하는 실무적 타협점을 제시한다.

대규모 컨텍스트를 처리할 때 발생하는 메모리 대역폭 병목 현상은 AMD GPU의 대용량 VRAM(Video RAM, 그래픽 메모리)을 통해 실질적으로 완화된다. 디퓨전 모델은 여러 토큰의 초안을 동시에 생성하므로 동일한 KV-캐시(Key-Value Cache, 이전 토큰의 정보를 저장하는 메모리)를 공유하며, 이는 메모리 접근 횟수를 획기적으로 줄이는 결과로 이어진다. VRAM 용량이 넉넉할수록 더 많은 블록을 동시에 처리할 수 있는 물리적 여유가 생기며, 이는 곧 추론 속도의 비약적인 상승으로 연결된다. 실무적으로는 고성능 하드웨어의 잠재력을 소프트웨어 아키텍처가 온전히 끌어내어, 대규모 문맥 처리 시 발생하는 지연 시간을 물리적 한계치까지 낮추는 구현 방식이 제안된다. 결과적으로 하드웨어의 메모리 용량과 연산 능력을 극대화하여 추론 처리량을 대폭 개선하는 구조가 완성된다.

한국 AI 실무 환경에서의 도입 고려 사항

실무 개발자가 가장 먼저 마주하는 장벽은 벤치마크 수치가 아니라 추론 엔진의 호환성이다. 현재 대다수 기업이 사용하는 vLLM(가상 LLM 추론 엔진)이나 TensorRT-LLM(엔비디아 최적화 추론 라이브러리) 같은 스택은 토큰을 하나씩 생성하는 자기회귀 방식에 최적화되어 있다. 확산 모델 기반의 추론을 도입하려면 이러한 기존의 최적화 경로를 벗어나 새로운 추론 파이프라인을 구축해야 한다. 이는 단순히 라이브러리를 업데이트하는 수준이 아니라, 데이터를 주고받는 방식과 메모리 관리 전략을 근본적으로 수정해야 함을 의미하며, 이 과정에서 발생하는 초기 설정 비용이 적지 않다.

운영 오버헤드 역시 실무 관점에서 무시할 수 없는 요소로 관찰된다. 기존 모델이 단순한 선형적 생성 구조를 가졌다면, 확산 모델은 여러 개의 토큰 초안을 동시에 생성하고 이를 검증하는 복잡한 과정을 거친다. ZAYA1-8B-Diffusion-Preview가 단일 단계 변환을 통해 효율을 높였고 모델 하나가 제안자와 검증자 역할을 동시에 수행하며 오버헤드를 줄였다 하더라도, 이를 실제 서비스 환경에서 안정적으로 구동하기 위한 샘플링 기준 설정과 예외 처리 로직은 개발팀에 추가적인 부담이 된다. 특히 성숙도가 낮은 확산 전용 추론 스택은 디버깅 난이도를 높이며, 이는 곧 배포 주기와 유지보수 비용의 증가로 이어진다.

메모리 대역폭이 병목이 되는 대규모 추론 환경에서는 도입을 우선적으로 검토할 가치가 충분하다. 대규모 배치 처리 시 GPU가 실제 연산보다 메모리에서 KV-cache(키-값 캐시, 이전 토큰의 표현값 저장소)를 불러오는 데 더 많은 시간을 쓰는 메모리 대역폭 제한 현상이 빈번하게 발생하기 때문이다. 확산 모델은 여러 토큰이 동일한 캐시를 공유하게 함으로써 연산 중심의 구조로 전환하며, 이는 하드웨어 자원 활용도를 극대화하는 결과로 이어진다. 특히 AMD MI300x나 MI355x처럼 VRAM 용량이 큰 하드웨어 환경에서는 더 많은 블록 제안을 동시에 처리할 수 있어, 트래픽이 집중되는 엔터프라이즈급 서비스일수록 구조적 전환이 가져다주는 비용 절감 효과가 뚜렷하게 나타날 것으로 제안한다.

확산 모델의 등장은 단순한 추론 속도의 개선을 넘어 LLM 연산 패러다임의 근본적인 변화를 시사한다. 기존의 순차적 생성 방식이 가진 물리적 한계를 병렬적 초안 생성과 검증이라는 새로운 접근법으로 돌파하고 있기 때문이다. 인프라 스택의 성숙도라는 현실적인 과제가 남아있으나, 연산 효율성을 극대화하여 서비스 단가를 낮추려는 실무적 관점에서 확산 기반 추론은 선택이 아닌 필수적인 최적화 경로가 될 가능성이 높다.