매일 아침 개발자들이 로컬에서 돌릴 수 있는 추론 모델을 찾는 풍경이 바뀌고 있다. 이번 주 Hugging Face에 ZAYA1-8B가 Apache 2.0 라이선스로 올라왔다. 8.4B 총 파라미터 중 실제로 활성화되는 건 760M에 불과하다.
ZAYA1-8B, AMD Instinct MI300x 1024노드로 훈련
Zyphra AI는 ZAYA1-8B를 공개했다. 이 모델은 MoE(전문가 혼합) 구조로, 760M 활성 파라미터와 8.4B 총 파라미터를 가진다. 훈련 전 과정이 AMD Instinct MI300 스택에서 이뤄졌다. 1024개의 AMD Instinct MI300x 노드가 AMD Pensando Pollara 인터커넥트로 연결된 클러스터를 IBM과 함께 구축했다.
수학과 코딩 벤치마크에서 훨씬 큰 오픈웨이트 모델들을 앞질렀다. AIME'26에서 89.1점, HMMT Feb.'26에서 71.6점, IMO-AnswerBench에서 59.3점, APEX-shortlist에서 32.2점, LiveCodeBench-v6에서 65.8점, GPQA-Diamond에서 71.0점을 기록했다. 같은 크기대의 Qwen3-4B-Thinking-2507과 Gemma-4-E4B-it을 수학과 코딩 전 항목에서 능가했다.
더 큰 모델과 비교해도 결과는 명확하다. ZAYA1-8B는 119B 총 파라미터(6B 활성)의 Mistral-Small-4-119B를 AIME'26(89.1 vs 86.4), HMMT Feb.'26(71.6 vs 70.6), LiveCodeBench-v6(63.8 vs 57.9)에서 앞질렀다. Mistral-Small-4는 GPQA-Diamond(77.2 vs 71.0)와 MMLU-Pro(81.6 vs 74.2)에서 여전히 우위를 가진다.
기존 MoE와 다른 세 가지 설계 변경
예전에는 MoE 모델이 단순히 전문가를 늘리는 방식이었다. ZAYA1-8B는 Zyphra의 MoE++ 아키텍처를 기반으로 세 가지 변경을 도입했다. 파라미터당, FLOP당 추출되는 지능을 최대화하는 설계 목표를 가진다.
훈련 파이프라인은 다섯 단계로 구성된다. 사전훈련, 중간훈련, 지도 미세조정, 추론 RL(강화학습) 캐스케이드, 마지막으로 Markovian RSA(마르코프 재귀 자기 집계) 추론 시간 계산 방식이 결합된다. 연구팀은 RL 단계에서 수학과 코딩 능력이 가장 크게 향상되었고, MMLU와 GPQA-Diamond 같은 지식 검색과 창작 글쓰기에서도 의미 있는 개선이 있었다고 밝혔다.
Markovian RSA, 고정 컨텍스트에서 무한 사고 가능
개발자가 바로 체감하는 변화는 추론 방식에 있다. Markovian RSA는 두 가지 기존 아이디어를 새롭게 결합했다. 첫째는 RSA(재귀 자기 집계)로, 여러 추론 흔적을 병렬 생성하고 반복적으로 집계한다. 둘째는 마르코프 사고 방식으로, 추론을 고정 길이 청크로 나누고 이전 청크의 꼬리 부분만 다음 청크로 전달한다.
이 조합의 결과는 명확하다. 각 프롬프트에 대해 여러 추론 흔적이 병렬 생성되고, 각 흔적에서 고정 길이 꼬리 부분이 추출된다. 후보 풀에서 서브 샘플링된 집계 프롬프트가 다음 병렬 응답 라운드를 시작한다. 중간 사고 과정 길이가 고정 컨텍스트 창 크기를 절대 넘지 않는다.
핵심 발견은 사후훈련 방법론과 추론 하네스(모델 실행 환경)의 공동 설계가 필수적이라는 점이다. ZAYA1-8B는 SFT(지도 미세조정) 단계부터 RL까지 Markovian RSA 집계 프롬프트와 청킹을 이해하고 응답하도록 훈련되었다. 같은 방법론을 Qwen3-4B-Thinking-2507에 적용했을 때 성능 향상은 훨씬 작았다.
추가 추론 시간 계산 예산을 문제당 550만 토큰으로 늘렸을 때, ZAYA1-8B는 APEX-shortlist 수학 벤치마크에서 DeepSeek-V3.2와 GPT-OSS-High를 능가했다. HMMT'25에서는 89.6점으로 Claude 4.5 Sonnet(88.3)과 GPT-5-High를 넘어섰다.
모델 가중치는 Hugging Face에서, 기술 보고서는 arXiv에서 확인할 수 있다. Zyphra Cloud에서 서버리스 엔드포인트로도 제공된다.
760M 활성 파라미터가 119B 모델을 수학에서 이긴 지형은, MoE 구조와 추론 시간 계산의 공동 설계가 효율성의 새로운 기준을 만들었음을 의미한다.




