매일 아침 새로운 거대 언어 모델이 쏟아지는 가운데, 이번 주 개발자 커뮤니티에서는 팰로앨토의 스타트업 Zyphra가 내놓은 ZAYA1-8B 모델이 뜨거운 감자로 떠올랐다. OpenAI나 Anthropic 같은 빅테크가 수조 개의 파라미터를 가진 거대 모델 경쟁에 몰두하는 동안, 이들은 80억 개의 파라미터라는 작은 체급으로도 최상위권 모델과 대등한 추론 성능을 내는 데 성공했다. 특히 엔비디아(Nvidia, 그래픽 처리 장치 제조사)의 독주 체제 속에서 AMD(Advanced Micro Devices, 반도체 설계 기업)의 Instinct MI300(고성능 AI 연산용 그래픽 처리 장치)을 활용해 모델을 학습시켰다는 점이 개발자들 사이에서 큰 화제다.

ZAYA1-8B의 기술적 사양과 학습 환경

ZAYA1-8B는 80억 개의 전체 파라미터 중 실제 추론 시 7억 6천만 개의 파라미터만 활성화하는 MoE++(Mixture-of-Experts, 특정 토큰 처리에 필요한 전문가 신경망만 선택적으로 활성화하는 구조의 개선판) 아키텍처를 채택했다. 이 모델은 Hugging Face를 통해 Apache 2.0 라이선스로 공개되어 누구나 무료로 내려받아 사용할 수 있다. 또한 Zyphra는 Zyphra Cloud를 통해 개별 사용자가 브라우저에서 즉시 모델을 테스트할 수 있는 환경을 제공한다. 이번 학습에 사용된 AMD Instinct MI300은 엔비디아의 하드웨어 의존도를 낮출 수 있는 실질적인 대안임을 증명하며, AI 모델 개발 생태계의 하드웨어 다변화 가능성을 열었다는 평가를 받는다.

기존 Transformer 구조와의 차이점

예전에는 거대 언어 모델의 성능을 높이기 위해 단순히 파라미터 수를 늘리고 컨텍스트 윈도우(모델이 한 번에 기억하는 정보의 범위)를 확장하는 방식이 주를 이뤘다. 하지만 ZAYA1-8B는 세 가지 핵심적인 구조적 변화를 통해 효율성을 극대화했다. 첫째, CCA(Compressed Convolutional Attention, 정보를 압축된 공간에서 처리하여 메모리 사용량을 8배 줄이는 기술)를 도입해 KV-캐시(모델이 이전 대화 내용을 기억하기 위해 저장하는 메모리 공간) 크기를 획기적으로 줄였다. 둘째, 기존의 선형 라우터 대신 다층 MLP(Multi-Layer Perceptron, 여러 층의 신경망을 쌓아 복잡한 연산을 수행하는 구조) 기반의 라우터를 설계하고 PID 제어기(고전 제어 이론에서 오차를 줄이기 위해 사용하는 알고리즘)를 응용해 학습 안정성을 확보했다. 셋째, 잔차 스케일링(Residual Scaling, 신경망 깊이에 따른 신호 소실을 방지하는 기법)을 적용해 연산 오버헤드 없이 모델의 깊이를 안정적으로 유지했다.

추론 성능과 로컬 배포의 영향

개발자가 바로 체감하는 변화는 추론 과정에서 발생하는 컨텍스트 블로트(Context Bloat, 긴 대화로 인해 모델의 집중력이 흐려지는 현상)가 사라졌다는 점이다. ZAYA1-8B는 Markovian RSA(추론 깊이와 컨텍스트 크기를 분리하여 재귀적으로 답변을 검증하는 방법)를 통해 긴 사고 과정에서도 메모리 오버플로우 없이 무한히 추론을 이어간다. 이 방식을 통해 7억 6천만 개의 활성 파라미터만으로 AIME '25 벤치마크에서 91.9%의 점수를 기록하며, 수십 배 큰 모델들과 대등한 성적을 거뒀다. 기업 입장에서는 데이터 보안과 지연 시간 문제로 클라우드 API에 의존하던 기존 방식에서 벗어나, 고성능 추론 모델을 자체 서버나 엣지 디바이스(Edge Device, 중앙 서버가 아닌 사용자 근처의 기기)에 직접 올릴 수 있는 로컬 퍼스트(Local-first) 환경을 구축할 수 있게 되었다.

ZAYA1-8B는 거대 모델의 비용과 지연 시간이라는 벽을 넘어, 개발자가 자신의 하드웨어 환경에서 최상위 수준의 추론 능력을 구현할 수 있는 새로운 이정표를 제시했다.