샤오미 MiMo-V2.5-Pro-UltraSpeed 공개, 1조 파라미터 모델서 초당 1000토큰 생성 구현

facts

이번 공개의 핵심은 1조(1T) 파라미터 규모의 모델에서 디코딩 속도 1000 tokens/s(tps)를 돌파했다는 점이다. 샤오미(Xiaomi)가 출시한 'MiMo-V2.5-Pro-UltraSpeed'는 전용 가속기가 아닌 일반적인 commodity GPU 환경의 단일 표준 8-GPU 노드에서 이 수치를 달성했다. 실시간 생성 속도 측정에서는 최대 약 1200 tps까지 도달한 것으로 확인됐다.

API 제공 방식은 신청 기반의 기간 한정 프로모션으로 운영된다. 이용 가능 기간은 2026년 6월 9일부터 6월 23일 23:59(UTC+8)까지이며, 승인된 사용자만 접근할 수 있다. 비용과 성능 측면에서는 기존 MiMo-V2.5-Pro 대비 약 3배의 비용이 발생하지만, 생성 속도는 약 10배 향상된 수치를 표방한다. 단, API 전용으로 제공되며 토큰 플랜(Token Plan)은 지원하지 않는다.

신청은 공식 플랫폼(platform.xiaomimimo.com/ultraspeed)을 통해 가능하며, 실제 비즈니스 수요가 있는 기업과 전문 개발자를 우선적으로 승인한다. 승인 사용자는 ultraspeed.xiaomimimo.com을 통해 2주간 무료 Chat 체험이 가능하다. 체험 계정은 하루 최대 10회 대기열 진입이 가능하며, 세션당 최대 30분, 5분 이상 유휴 상태일 경우 자동으로 해제된다.

how-it-works

속도 향상의 근거는 모델과 시스템의 공동 설계(Codesign)에 있다. 먼저 모델 측면에서는 메모리 대역폭 병목을 해결하기 위해 MXFP4 포맷의 FP4 양자화를 채택했다. 1T 규모의 모델 전체에 FP4를 적용할 경우 논리 및 코드 생성 성능이 저하되는 문제가 발생하므로, MoE(Mixture of Experts, 전문가 혼합) 아키텍처에서 양자화 내성이 높은 'Experts' 모듈만 선택적으로 FP4로 양자화하고 나머지 모듈은 원래 정밀도를 유지했다. 여기에 FP4 QAT(Quantization-Aware Training)를 적용해 원본 모델과 동등한 수준의 성능을 유지하며 모델 크기를 축소했다.

추론 효율을 높이기 위해 도입된 'DFlash Speculative Decoding'은 기존의 직렬적 추측 방식에서 벗어나, 단일 forward pass로 마스킹된 블록 전체를 채우는 방식을 사용한다. Muon 2차 최적화기와 모델 self-distillation을 통해 드래프트 단계의 오버헤드를 최소화했으며, Sliding Window Attention(SWA)을 적용해 예측 연산량을 컨텍스트 길이에 비례하는 수준에서 상수로 축소했다. 블록 크기는 8로 제한하여 검증 오버헤드를 줄였으며, 시나리오별 평균 수용 길이(Acceptance Length)는 다음과 같다.

- Coding: 6.30 (최대 7.14)

- Math / Reasoning: 5.56

- Agent: 4.29

시스템 측면에서는 TileRT의 초저지연 추론 커널이 작동한다. 기존 추론 시스템의 병목이었던 연산자 경계(operator boundaries)와 실행 간극(Execution Gaps)을 제거하기 위해 'Persistent Engine Kernel'을 도입했다. 이는 연산 파이프라인을 GPU 내부에 상주시켜 데이터 이동과 연산을 극한으로 중첩(overlap)시키는 방식이다. 또한 'Warp Specialization'을 통해 통신, 데이터 이동, 텐서 연산을 물리적으로 분해하여 GPU를 이기종 실행 시스템으로 정밀 조율했다.

implementation-impact

개발자가 체감하는 가장 큰 변화는 추론 지연(Inference Latency)이라는 병목의 제거다. 1T 규모의 플래그십 모델이 초당 1000토큰을 생성하게 되면, AI는 단순한 응답 도구가 아니라 '사고의 연장(extension of thinking)'으로 작동한다. 동일한 실제 시간(wall-clock) 내에 수십 개의 추론 경로를 병렬로 실행하는 Best-of-N 또는 Tree Search가 가능해지며, 백그라운드에서 자동 검증과 자가 수정을 반복해 최종 출력의 품질을 직접적으로 높일 수 있다.

구체적인 적용 분야에서는 코딩 에이전트(Coding Agent)의 생산성 한계가 해제된다. 개발자가 코드 생성을 기다리는 대기 시간이 사라지며, 밀리초 단위의 'think-respond' 사이클이 가능해진다. 이는 고빈도 퀀트 트레이딩 신호 생성, 실시간 이상거래 차단, 지능형 입찰 등 시간 민감도가 극도로 높은 시나리오에 1T 모델을 결합할 수 있음을 의미한다. 의료 분야에서는 수술 보조나 영상 분석 시 병변 분석 및 위험 예측 시간을 단축해 외과의의 대응 자유도를 높이는 방향으로 활용 가능하다.

실무 도입을 위한 리소스는 Hugging Face에 공개된 `MiMo-V2.5-Pro-FP4-DFlash` 체크포인트를 통해 확인할 수 있다. 해당 체크포인트에는 FP4 양자화 가중치와 DFlash 모델 파라미터가 포함되어 있어, TileRT 환경에서 초저지연 추론을 구현하려는 개발자가 직접 검증할 수 있다.

샤오미 MiMo-V2.5-Pro-UltraSpeed 공개, 1조 파라미터 모델서 초당 1000토큰 생성 구현

facts

how-it-works

implementation-impact

관련 기사