매일 아침 깃허브 트렌드와 허깅페이스(Hugging Face, 인공지능 모델과 데이터셋을 공유하는 플랫폼)를 확인하는 개발자들 사이에서 최근 가장 뜨거운 화제는 단연 모델의 효율성이다. 거대 언어 모델의 덩치가 커질수록 추론에 필요한 컴퓨팅 자원은 기하급수적으로 늘어나는데, 이를 해결하기 위한 새로운 시도가 등장했다. 이번 주 공개된 MiMo-V2.5-Pro는 1조 파라미터라는 압도적인 규모를 자랑하면서도, 실제 연산량은 420억 개 수준으로 제한해 성능과 속도라는 두 마리 토끼를 잡으려는 모습이다. 커뮤니티에서는 이 모델이 에이전트 작업에서 보여줄 실질적인 퍼포먼스에 대해 벌써부터 열띤 토론이 이어지고 있다.

1조 파라미터의 효율적 운용과 기술적 구조

XiaomiMiMo는 이번 모델에 MoE(전문가 혼합 방식, 전체 파라미터 중 일부만 활성화해 연산하는 구조) 아키텍처를 적용했다. 전체 파라미터 수는 1.02조 개에 달하지만 실제 추론 시 활성화되는 파라미터는 420억 개에 불과하다. 모델은 하이브리드 어텐션(Hybrid Attention, 서로 다른 방식의 주의 집중 메커니즘을 혼합한 구조)을 도입하여 SWA(슬라이딩 윈도우 어텐션, 특정 범위의 토큰만 참조하는 방식)와 GA(글로벌 어텐션, 전체 토큰을 참조하는 방식)를 6대 1 비율로 교차 배치했다. 이를 통해 KV-cache(키-값 캐시, 이전 계산 값을 저장해 재사용하는 메모리) 저장 공간을 약 7배 줄이면서도 100만 토큰의 컨텍스트 길이를 유지한다. 또한 MTP(다중 토큰 예측, 한 번에 여러 개의 다음 토큰을 예측하는 기술) 모듈 3개를 탑재해 추론 속도를 기존 대비 3배 개선했다. 학습에는 27조 개의 토큰이 사용되었으며 FP8(8비트 부동소수점, 연산 정밀도를 낮춰 메모리 사용량을 줄이는 방식) 혼합 정밀도 기법이 적용되었다. 사후 학습 단계에서는 SFT(지도 미세 조정, 정답이 있는 데이터로 모델을 튜닝하는 방식), 대규모 에이전트 강화 학습, 그리고 MOPD(다중 교사 온-폴리시 증류, 여러 상위 모델의 지식을 효율적으로 전수받는 방식)가 활용되었다.

실무 성능과 개발자 체감 변화

예전에는 거대 모델을 로컬 환경에서 돌리는 것이 불가능에 가까웠지만, 이제는 효율적인 연산 구조 덕분에 복잡한 소프트웨어 엔지니어링 작업도 가능해졌다. MiMo-V2.5-Pro는 GSM8K(초등 수학 문장제 벤치마크)에서 99.6퍼센트, MATH(고난도 수학 문제 벤치마크)에서 86.2퍼센트의 정확도를 기록하며 DeepSeek-V4-Pro나 Kimi-K2 같은 경쟁 모델을 앞질렀다. 코딩 능력 또한 HumanEval+(파이썬 코드 생성 능력 평가)에서 75.6퍼센트, MBPP+(기초 프로그래밍 문제 해결 평가)에서 74.1퍼센트를 기록했다. 특히 SWE-Bench(실제 소프트웨어 엔지니어링 문제 해결 능력 평가)의 AgentLess 설정에서 35.7퍼센트의 성적을 거둔 점은 주목할 만하다. 이는 단순 챗봇을 넘어 스스로 문제를 해결하는 에이전트로서의 가능성을 입증한 것이다. 모델을 사용하려면 아래 명령어를 통해 다운로드할 수 있다.

bash
huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro

파이썬 환경에서 모델을 로드하고 추론하는 기본 예제 코드는 다음과 같다.

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-V2.5-Pro"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", trust_remote_code=True)

inputs = tokenizer("Write a complex Python script for a distributed system.", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

개발자가 바로 체감하는 변화는 100만 토큰의 컨텍스트 윈도우를 활용해 방대한 코드베이스 전체를 한 번에 분석할 수 있다는 점이다. 로컬 환경의 제약을 넘어 클라우드 기반의 고성능 에이전트 시스템을 구축하려는 개발자들에게 이 모델은 강력한 선택지가 될 것이다. MiMo-V2.5-Pro 공식 저장소에서 상세 정보를 확인할 수 있다.

초거대 모델의 지능과 경량 모델의 추론 효율성을 결합한 이번 시도는 AI 에이전트가 실무 현장에 안착하기 위한 기술적 표준을 다시 쓰고 있다.