최근 오픈소스 진영에서 텍스트를 넘어 이미지와 비디오, 오디오까지 하나의 아키텍처로 처리하려는 시도가 이어지고 있다. 이번 주 공개된 MiMo-V2.5는 Xiaomi(중국 가전 및 IT 기업)가 내놓은 네이티브 옴니모달 모델로, 에이전트 작업 수행에 최적화된 구조를 갖추고 있다. 특히 상용 활용이 가능한 라이선스 정책을 채택해 개발자들의 접근성을 높였다는 점이 시장의 주목을 받고 있다.

MiMo-V2.5의 기술적 사양과 구조

MiMo-V2.5는 Sparse MoE(전문가 혼합, 필요한 파라미터만 선택적으로 활성화하는 방식) 구조를 기반으로 설계되었다. 전체 파라미터 규모는 310B이며, 추론 시에는 15B 파라미터만 활성화하여 연산 효율을 극대화했다. 더 높은 성능을 요구하는 Pro 버전은 1.02T 파라미터 규모에 42B 활성 파라미터를 사용한다. 모델은 텍스트 사전학습부터 프로젝터 워밍업, 멀티모달 사전학습, SFT(지도 미세 조정), 에이전트 후처리, RL(강화학습) 및 MOPD(다중 교사 온-정책 증류)로 이어지는 5단계 파이프라인을 거쳐 완성되었다. 학습에는 총 48T 토큰이 사용되었으며 FP8 혼합 정밀도를 적용했다.

비전 인코더는 729M 파라미터의 ViT(이미지를 패치 단위로 나누어 처리하는 시각 모델)를 탑재했고, 오디오 인코더는 261M 파라미터 규모의 MiMo-Audio-Tokenizer(오디오 신호를 토큰화하는 도구)를 사용한다. 추론 가속을 위해 3개 레이어의 MTP(다중 토큰 예측) 모듈을 도입하여 speculative decoding(작은 모델로 먼저 예측하고 큰 모델이 검증하는 가속 기법) 성능을 높였다. 배포 환경은 SGLang(대규모 언어 모델을 위한 고속 추론 프레임워크)의 FP8 양자화 및 병렬 처리를 지원하며, vLLM(대규모 언어 모델 서빙 엔진)을 통해 공식 배포된다.

기존 모델과의 차이점과 효율성

기존의 멀티모달 모델들이 컨텍스트 창을 확장할 때 메모리 점유율 문제로 어려움을 겪었던 것과 달리, MiMo-V2.5는 Hybrid Attention(하이브리드 어텐션, 서로 다른 어텐션 방식을 조합한 기법)을 도입했다. SWA(슬라이딩 윈도우 어텐션)와 GA(그룹화 어텐션)를 5대 1 비율로 혼합하고 윈도우 크기를 128로 설정하여 KV-cache(모델이 이전 토큰 정보를 저장하는 메모리 영역) 저장량을 기존 대비 약 6배 절감했다. 이를 통해 최대 1M 토큰의 컨텍스트를 처리할 수 있게 되었다. Base 버전은 256K, Full 버전은 1M 토큰을 지원한다. MIT 라이선스를 채택하여 별도의 허가 없이 상용 배포와 파인튜닝이 가능하다는 점은 기존의 폐쇄적인 오픈소스 정책과 차별화되는 지점이다.

개발자가 바로 체감하는 변화는 에이전트 작업의 범용성이다. MiMo-V2.5는 텍스트와 멀티모달 데이터를 단일 아키텍처에서 처리하도록 설계되어, 복잡한 에이전트 워크플로우를 수행할 때 발생하는 데이터 변환 비용을 최소화한다. 특히 1M 토큰의 긴 문맥을 효율적으로 처리할 수 있는 구조적 이점은 대규모 문서 분석이나 긴 영상 이해가 필요한 서비스 개발에 즉각적인 활용이 가능하다. 벤치마크 성능 또한 에이전트 및 멀티모달 영역에서 강화되었으며, 상세한 모델 정보와 데이터셋은 공식 GitHub 저장소에서 확인할 수 있다.

모델의 성능은 결국 파라미터 효율성과 추론 속도의 균형에서 결정되며, MiMo-V2.5는 1M 토큰이라는 긴 문맥과 상용 가능한 라이선스를 결합해 오픈소스 생태계의 실질적인 대안으로 자리 잡으려 한다.