facts

중국 배달 플랫폼 기업 메이투안(Meituan)이 1.6조 개의 파라미터를 보유한 혼합 전문가(MoE, Mixture-of-Experts) 모델 'LongCat-2.0'을 깃허브(GitHub)와 허깅페이스(Hugging Face)에 공개했다. 이 모델은 지난 두 달간 오픈라우터(OpenRouter)에서 'Owl Alpha'라는 익명 모델로 서비스되며 글로벌 개발자 차트 상위권을 기록했던 엔진이다.

LongCat-2.0은 기업용으로 활용 가능한 MIT 라이선스를 적용했으며, 기본적으로 100만 토큰의 컨텍스트 윈도우를 제공한다. 하드웨어 인프라 측면에서는 엔비디아(Nvidia) GPU가 아닌, 5만 대 이상의 중국산 ASIC(Application-Specific Integrated Circuit, 주문형 반도체) 클러스터에서 전체 학습을 완료했다는 점이 특징이다.

API 과금 체계는 컨텍스트 캐시 적중(Cache-hit) 시 비용을 완전히 무료로 처리하는 방식을 도입했다. 비캐시 적중 시의 표준 가격은 입력 100만 토큰당 0.75달러, 출력 100만 토큰당 2.95달러다. 현재 한시적 프로모션을 통해 입력 0.30달러, 출력 1.20달러로 가격을 낮춰 운영하고 있다. 오픈라우터 서비스 당시 Owl Alpha는 월평균 10.1조 개의 토큰을 처리했으며, 일평균 처리량은 5,590억 토큰에 달했다.

how-it-works

LongCat-2.0의 핵심 구조는 MoE 희소성(Sparsity) 최적화에 있다. 전체 파라미터는 1.6조 개지만, 토큰당 실제 활성화되는 연산량은 평균 480억 개로 제한했다. 쿼리의 복잡도에 따라 동적 활성화 범위는 330억 개에서 560억 개 사이에서 움직인다. 특히 '제로 컴퓨팅 전문가(Zero-Compute Experts)' 프레임워크를 통해 단순 실행 요소는 가벼운 서브 네트워크를 통과하게 하여, 초거대 모델에서 발생하는 유휴 연산 오버헤드를 제거했다.

100만 토큰의 컨텍스트를 유지하기 위해 'LongCat Sparse Attention(LSA)' 기술을 적용했다. LSA는 다음 세 가지 벡터를 통해 메모리 파편화와 연산 비용을 해결한다.

1. Streaming-aware Indexing (SI): 하드웨어 정렬 연속 데이터 읽기와 동적 랜덤 선택을 결합해 고대역폭 메모리(HBM) 활용도를 높이고 유효 대역폭을 확장한다.

2. Cross-Layer Indexing (CLI): 인접한 은닉층 간의 어텐션 돌출성(Saliency)이 안정적이라는 점을 이용해, 한 번의 인덱싱 패스로 여러 층의 추론을 가이드함으로써 계산 비용을 분산한다.

3. Hierarchical Indexing (HI): 블록 단위의 대략적인 리콜로 후보를 먼저 거른 뒤, 남은 후보에 대해서만 세밀한 토큰 선택을 수행하는 2단계 스코어링 방식을 사용한다.

또한, 5-gram 토큰 조합 프레임워크에 1,350억 개의 파라미터를 추가한 'N-gram 임베딩 모듈'을 통합했다. 이를 통해 임베딩 공간을 약 100배 확장하여 지역적 토큰 관계 포착 능력을 높이고 메모리 I/O 병목을 줄여 대규모 배치 추론 속도를 개선했다.

학습 후 최적화 단계에서는 'MOPD(Multi-Teacher Optimization via Mixture of Specialized Experts)' 구조를 사용했다. 보상 함수를 하나로 합치지 않고 세 가지 전문가 클러스터로 분리해 최적화했다.

- Agent Experts: 도구 호출, API 파라미터 파싱, 자기 수정 루프 등 구조적 실행에 특화.

- Reasoning Experts: 다단계 논리, Chain-of-Thought, 수학 및 STEM 문제 해결에 특화.

- Interaction Experts: 지시어 이행, 사실 근거 강화, 안전 가드레일 유지에 특화.

벤치마크 성능은 에이전트 작업에서 강점을 보인다. SWE-bench Pro에서 59.5점을 기록해 GPT-5.5의 58.6점을 상회했다. 그 외 Terminal-Bench 2.1에서 70.8점, SWE-bench Multilingual에서 77.3점, 기업 워크플로우 시뮬레이터인 FORTE에서 73.2점을 기록했다.

implementation-impact

개발자와 실무자는 LongCat-2.0을 단순한 챗봇이 아닌 '에이전트적 작업(Agentic tasks)' 수행 도구로 판단해야 한다. 모델의 설계 목적이 다단계 엔지니어링, 도구 통합, 자동화된 저장소 조작에 맞춰져 있기 때문이다. 특히 MOPD를 통해 분리 학습된 에이전트 전문가 층은 API 파라미터 파싱과 실행 정체 방지를 위한 자기 수정 루프에서 기존 범용 모델보다 정밀한 제어를 제공한다.

운영 비용 측면에서는 '컨텍스트 캐시 무료' 정책이 핵심 변수다. 100만 토큰의 긴 컨텍스트를 빈번하게 재사용하는 코드베이스 분석이나 대규모 문서 기반 에이전트 구축 시, 캐시 적중률에 따라 API 비용을 획기적으로 낮출 수 있다.

인프라 관점에서는 엔비디아 GPU 의존성 없이도 조 단위 파라미터 모델의 학습과 배포가 가능하다는 실증 사례를 제시했다. 이는 특정 하드웨어 공급망 제약이 있는 환경에서 ASIC 기반의 대규모 모델 구축 전략을 세울 때 중요한 기술적 근거가 된다. 결과적으로 폐쇄형 모델의 접근 제한이나 비용 상승에 직면한 개발자에게 고성능 오픈소스 대안으로서의 선택지를 제공한다.