인공지능 업계는 그동안 더 많은 데이터를 학습시키고 파라미터 규모를 키우는 거대 모델 경쟁에 매몰되어 있었다. 하지만 최근의 흐름은 다르다. 무조건 큰 모델보다는 특정 영역에서 압도적인 효율을 내는 작고 똑똑한 모델에 시장의 관심이 쏠리고 있다. 이러한 흐름 속에서 Zyphra가 공개한 ZAYA1-8B는 모델의 크기와 지능의 상관관계를 다시 쓰게 만드는 충격적인 결과물을 내놓았다. 특히 복잡한 논리적 사고가 필요한 수학과 코딩 영역에서 기존의 상식을 깨는 성능을 보여주며 개발자들의 이목을 집중시키고 있다.

효율성의 극대화와 기술적 설계

ZAYA1-8B는 전체 파라미터 84억 개 중 실제 연산에 참여하는 활성 파라미터를 7억 6천만 개로 제한한 MoE(Mixture of Experts, 전문가 혼합 방식) 구조를 채택했다. MoE는 모든 파라미터를 사용하는 대신 입력값에 따라 필요한 부분만 활성화하여 연산량을 획기적으로 줄이는 기술이다. 이를 통해 모델의 전체 지식 용량은 유지하면서도 추론 속도는 비약적으로 높였다. 이 모델은 Zyphra가 사전 학습부터 사후 학습까지 전 과정을 직접 수행하여 최적화했으며 특히 긴 호흡의 추론이 필요한 수학적 문제 해결과 코드 생성에 특화되었다.

개발자가 이 모델을 자신의 환경에 구축하기 위해서는 vLLM(고성능 LLM 추론 엔진)의 특정 브랜치를 설치해야 한다. 설치 명령어는 다음과 같다.

bash
pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

이 모델은 단순한 채팅용이 아니라 추론 능력을 극대화한 버전으로 배포되었다. 따라서 복잡한 단계별 사고가 필요한 작업에 투입했을 때 가장 큰 효과를 볼 수 있다. 또한 전체 파라미터 규모가 작기 때문에 고가의 서버용 GPU 없이도 개인용 노트북이나 모바일 기기 자체에서 연산을 처리하는 온디바이스(On-device) 환경에 배포하기에 최적의 조건을 갖추고 있다.

벤치마크가 증명하는 체급을 뛰어넘는 성능

ZAYA1-8B의 진가는 수치에서 드러난다. 수학적 추론 능력을 측정하는 AIME'26(미국 수학 초청 시험)에서 89.1점을 기록하며 비슷한 체급의 Qwen3-4B-Thinking(77.5점)이나 Gemma-4-E4B-it(50.3점)를 압도했다. 또한 하버드와 MIT가 공동 주관하는 수학 경시 대회 기반의 HMMT Feb.'26 벤치마크에서도 71.6점을 기록하며 경쟁 모델들을 앞질렀다. 코딩 능력을 평가하는 LiveCodeBench-v6에서도 65.8점을 기록하며 소형 모델임에도 불구하고 매우 강력한 구현 능력을 갖췄음을 입증했다.

더욱 놀라운 점은 거대 모델과의 비교 결과다. ZAYA1-8B는 전체 파라미터가 1190억 개에 달하는 Mistral-Small-4-119B 모델과 비교했을 때 AIME'26에서 89.1 대 86.4로 오히려 더 높은 점수를 기록했다. 이는 활성 파라미터 7억 개 수준의 연산 비용만으로 1000억 개 이상의 파라미터를 가진 모델과 대등하거나 그 이상의 추론 성능을 낼 수 있다는 것을 의미한다. 지식 측정 지표인 GPQA-Diamond(대학원 수준의 고난도 질문 답변 벤치마크)에서는 71.0점을, MMLU-Pro(다양한 전문 지식을 측정하는 확장 벤치마크)에서는 74.2점을 기록하며 범용적인 지능 수준 또한 준수하게 유지하고 있다.

실무 관점에서 ZAYA1-8B는 테스트 시간 연산(Test-time compute, 추론 시에 더 많은 연산 자원을 투입해 정답률을 높이는 방식) 전략을 사용하는 시스템에 매우 효과적이다. 모델 자체가 가볍기 때문에 동일한 하드웨어 자원에서 더 많은 추론 경로를 탐색하거나 반복적인 검증 과정을 거칠 수 있기 때문이다. 이는 제한된 자원으로 최상의 정답을 도출해야 하는 로컬 AI 에이전트 개발자들에게 매우 매력적인 선택지가 된다.

ZAYA1-8B는 거대 모델의 시대에서 효율적 추론 모델의 시대로 넘어가는 변곡점을 상징하는 모델이다.