200단계 넘는 장기 과제서 Claude 압도 — 샤오미 MiMo Code 공개

터미널 기반 AI 코딩 어시스턴트 MiMo Code

AI 코딩 도구를 사용할 때마다 프로젝트의 배경과 맥락을 매번 다시 설명해야 하는 번거로움은 개발자의 몰입을 방해하는 주요 요인이다. Xiaomi는 이러한 불편을 해소하고자 터미널 네이티브 AI 코딩 어시스턴트인 MiMo Code V0.1.0를 2026년 6월 10일 오픈소스로 공개했다. MIT 라이선스로 GitHub에서 제공되는 이 도구는 macOS와 Linux, Windows 환경을 모두 지원한다. 터미널이라는 개발자의 핵심 작업 공간에 AI를 직접 통합함으로써 불필요한 도구 전환을 없애고 작업 맥락을 유지하는 환경을 구현했다.

시스템 내부에는 도구가 스스로 성능을 고도화하는 두 가지 자체 개선 메커니즘이 탑재되어 있다. 먼저 `/dream` 명령어는 약 7일마다 과거의 세션 데이터를 전수 검토하고 중복된 내용을 제거한 뒤, 이를 장기 메모리 형태로 압축해 저장한다. 이와 함께 작동하는 `distill` 함수는 과거 세션 기록에서 반복적으로 나타나는 워크플로우를 발굴해 이를 자동화 프로세스로 전환한다. AI가 사용자의 작업 패턴을 학습해 반복적인 수동 작업을 자동화 규칙으로 변환함으로써 단순 반복 업무를 제거하는 구조다.

장기 작업 성능을 높이는 메모리 아키텍처

576명의 개발자가 참여한 내부 베타 A/B 테스트 결과, 작업 길이에 따라 성능 격차가 벌어졌다. 200단계 미만의 짧은 작업에서는 Claude Code(클로드 코드)와 MiMo Code(미모 코드)가 약 50 대 50의 비슷한 승률을 기록했다. 하지만 200단계를 초과하는 장기 실행 작업에서는 MiMo Code의 승률이 65% 이상으로 상승하며 우위를 점했다.

이러한 성능은 SQLite FTS5(에스큐엘라이트 풀텍스트 서치) 기반의 교차 세션 메모리 시스템으로 구현된다. 시스템은 지속성 있는 프로젝트 메모리 파일인 MEMORY.md, 세션별 체크포인트, 임시 기록을 위한 스크래치 노트, 개별 작업 진행 로그라는 4개 계층으로 메모리를 세분화해 관리한다. 특히 독립적으로 작동하는 checkpoint-writer(체크포인트 라이터) 서브에이전트가 실시간으로 작업 청사진을 업데이트한다. 이 다층 구조와 상태 관리 아키텍처가 장기 작업 과정에서 발생하는 컨텍스트 손실을 방지하고 일관된 작업 흐름을 유지한다.

벤치마크로 증명된 에이전트 하네스의 효율

MiMo Code(MiMo-V2.5-Pro 결합)는 세 가지 주요 벤치마크 테스트에서 Claude Code(Claude Sonnet 4.6 결합)보다 높은 수치를 기록했다. SWE-bench Verified에서는 82% 대 79%, SWE-bench Pro에서는 62% 대 55%로 7%p의 격차를 보였으며, Terminal Bench 2에서도 73% 대 69%를 기록했다. 이는 실제 소프트웨어 수정 및 터미널 제어 능력에서 경쟁 우위를 확보했음을 보여준다.

모델의 지능만큼이나 이를 감싸는 에이전트 하네스(harness, 모델의 실행 환경 및 제어 구조) 설계가 최종 결과에 영향을 미친다. 동일한 MiMo-V2.5-Pro 모델을 두 가지 서로 다른 하네스에 적용해 SWE-bench Pro 성능을 측정한 결과, MiMo Code 하네스는 62%의 점수를 냈지만 Claude Code 하네스는 57%에 머물렀다. 모델의 체급이 동일한 조건에서도 시스템 설계의 차이만으로 약 5%p의 성능 차이가 발생했다.

실무에서 체감하는 5%p 이상의 성능 격차는 모델의 파라미터 크기가 아닌 에이전트 하네스의 정교함에서 발생한다. 이제 AI 코딩 도구의 선택 기준은 모델의 지능이 아니라 맥락을 유지하는 시스템 아키텍처의 완성도로 이동한다.

200단계 넘는 장기 과제서 Claude 압도 — 샤오미 MiMo Code 공개

터미널 기반 AI 코딩 어시스턴트 MiMo Code

장기 작업 성능을 높이는 메모리 아키텍처

벤치마크로 증명된 에이전트 하네스의 효율

관련 기사