코드·텍스트 추론 속도 2배 높인 젯브레인즈의 Mellum2

발표에서 확인된 핵심 사실

고성능을 위해 거대 모델을 호출하면 응답 지연 시간이 길어지고, 비용을 줄이려 작은 모델을 쓰면 추론 품질이 급격히 떨어진다. 젯브레인즈(JetBrains, 개발 도구 전문 기업)가 공개한 Mellum2는 이 지점에서 타협점을 찾은 12B 규모의 오픈 모델이다. 이 모델은 믹스처 오브 엑스퍼츠(Mixture-of-Experts, MoE) 아키텍처를 채택해 전체 모델 용량은 높게 유지하면서 토큰당 일부 파라미터만 활성화해 처리한다. 모델의 크기를 12B로 유지하면서도 MoE 구조를 통해 성능과 속도의 균형을 잡았다. 추론 효율을 극대화해 실시간 워크로드의 서빙 비용을 낮추고 응답 속도를 확보했다.

성능 지표에서 가장 눈에 띄는 점은 추론 속도다. Mellum2는 유사한 규모의 다른 오픈 모델과 비교했을 때 2배 이상의 빠른 추론 속도를 제공한다. 특히 코드 생성과 추론, 수학 및 과학 벤치마크에서 경쟁력 있는 성능을 입증했다. 젯브레인즈는 이 모델의 최적화 대상을 저지연 텍스트 및 코드 워크로드로 명확히 한정했다. 이미지나 오디오 같은 멀티모달 기능을 과감히 제외하고 소프트웨어 엔지니어링 작업에만 집중해 콤팩트한 구조를 유지했다. 이는 고처리량(High-throughput)이 필요한 실제 프로덕션 환경에서 추론 병목 현상을 해결하고 사용자 경험을 개선하는 실질적인 수단이 된다.

이전 버전인 Mellum이 코드 완성(Code Completion)이라는 단일 목적에 집중했다면, Mellum2는 그 기반을 더 넓은 영역으로 확장했다. 이제는 단순한 코드 생성을 넘어 자연어 처리와 소프트웨어 엔지니어링 전반의 복합적인 과업을 수행한다. 그러면서도 효율적인 추론과 배포 가능성이라는 핵심 설계 목표는 그대로 유지했다. 모든 작업을 하나의 거대 모델이 처리하는 모놀리식(Monolithic) 방식에서 벗어나, 특정 역할에 최적화된 모델을 적재적소에 배치하는 전략을 구현했다.

실제 AI 파이프라인에서는 프롬프트 분류, 도구 선택, 리트리벌 후처리, 계획 수립 같은 중간 단계 작업에 이 모델을 배치한다. 이러한 작업들은 지연 시간에 매우 민감하지만, 반드시 수천억 개의 파라미터를 가진 거대 모델이 수행해야 할 만큼 복잡하지 않다. Mellum2를 이런 중간 제어 흐름이나 컨텍스트 압축, 요약 단계에 배치하면 전체 시스템의 응답 속도를 높이면서 동시에 API 호출 비용을 절감한다. 무조건 큰 모델을 호출하는 대신, 작업의 빈도와 난이도에 따라 모델 규모를 선택해 스택 전체의 효율을 높이는 구체적인 최적화 기준을 제공한다.

MoE 구조를 통한 파라미터 부분 활성화와 텍스트·코드 특화

API 호출 때마다 발생하는 수 초의 지연 시간을 어떻게 줄일 수 있을까? LLM API 호출 시 발생하는 높은 지연 시간과 비용은 실시간 서비스 도입의 가장 큰 걸림돌이다. Mellum2는 이를 해결하기 위해 MoE(Mixture-of-Experts, 전문가 혼합) 구조를 채택했다. MoE는 모델의 전체 파라미터 용량은 높게 유지하면서, 실제 추론 시에는 입력된 토큰당 일부 파라미터만 선택적으로 활성화하는 방식이다. 모든 가중치를 계산하는 기존 밀집 모델과 달리, 게이팅 네트워크가 토큰의 특성에 맞는 최적의 전문가 네트워크만 호출하여 연산을 수행한다. 이 과정에서 실제 계산에 참여하는 파라미터 수는 줄어들지만 모델이 보유한 전체 지식 저장소의 크기는 유지된다. 결과적으로 실시간 워크로드의 서빙 비용을 낮추고 응답 속도를 직접적으로 끌어올린다.

모델의 덩치를 키우지 않고 성능을 유지하는 구체적인 방법은 무엇인가. Mellum2는 멀티모달 기능을 완전히 배제하고 텍스트와 코드 작업에만 모든 역량을 집중했다. 이미지나 오디오 처리 능력을 제거함으로써 모델 구조를 콤팩트하게 유지하고 소프트웨어 엔지니어링 워크로드에 최적화된 설계를 구현했다. 불필요한 파라미터를 걷어내고 코드 이해와 텍스트 생성이라는 핵심 목적에만 가중치를 할당한 결과다. 이는 모델이 학습해야 할 도메인을 좁혀 추론 시의 효율성을 극대화하는 전략이다. 소프트웨어 개발 환경에서 요구되는 정밀한 코드 생성과 논리적 텍스트 처리에만 최적화된 구조를 갖춰 서빙 효율을 높이고 메모리 점유율을 낮췄다.

실제 파이프라인에서 이 구조는 어떤 식으로 배치되는가. 개발자는 모든 단계를 거대 모델에 맡기는 대신, 라우팅이나 검증 같은 중간 단계에 이 모델을 배치해 전체 흐름을 제어한다. 프롬프트 분류, 도구 선택, 중간 제어 흐름 수행과 같은 고빈도 작업은 굳이 거대한 파라미터를 전부 활성화할 필요가 없다. MoE 기반의 부분 활성화 방식은 이러한 가벼운 작업들을 빠르게 처리하며 전체 시스템의 병목을 제거한다. 특히 컨텍스트 압축이나 요약, 리트리벌 후처리 같은 지연 시간에 민감한 작업에서 그 효과가 극대화된다. 거대 모델의 강력한 추론 능력과 MoE 모델의 빠른 속도를 적재적소에 조합해 전체 파이프라인의 비용과 지연 시간을 최적화하는 판단 기준을 제공한다.

코드 완성을 넘어 '포컬(Focal) 모델'로의 전략 전환

API 호출 비용은 서비스의 운영 효율을 결정하는 가장 직접적인 지표다. 단순한 프롬프트 분류나 데이터 검증 같은 반복 작업에 수십억 개의 파라미터를 가진 거대 모델을 호출하면 토큰당 비용은 급증하지만 결과물의 질적 차이는 미미하다. 운영팀이 체감하는 비용 부담은 모델의 지능 수준보다 호출 빈도와 토큰 소모량에서 결정되며 이는 곧 서비스의 수익 구조와 직결된다. 무분별한 거대 모델 의존은 기술적 완성도와 별개로 운영 단계에서 심각한 비용 누수를 만들고 결국 서비스의 지속 가능성을 저해하는 요인이 된다.

이전 버전인 Mellum은 IDE에서 다음 단어를 예측하는 코드 완성(Code Completion)이라는 단일 목적에만 집중한 모델이었다. Mellum2는 이 기반을 확장해 자연어 처리와 소프트웨어 엔지니어링 전반의 작업 영역을 모두 다룬다. 단순한 코드 생성을 넘어 요구사항 분석, 코드 리뷰, 기술 문서 작성 같은 텍스트 기반 엔지니어링 태스크까지 처리 범위를 넓힌다. 이는 모델의 정체성을 특정 기능의 보조 도구에서 소프트웨어 개발 주기 전체를 지원하는 범용 엔진으로 전환한 결과이며 개발 워크플로우 전반의 연속성을 확보하는 핵심 장치가 된다.

지금까지의 AI 시스템 구축 방식은 하나의 거대 모델이 모든 판단과 생성을 책임지는 모놀리식(Monolithic) 구조가 주류였다. 모든 요청을 최상위 모델로 보내는 방식은 구현이 쉽지만 지연 시간과 비용이라는 치명적인 약점을 가진다. Mellum2는 모든 모델을 대체하는 것이 아니라 스택 내에서 발생 빈도가 높은 특정 작업을 전담하는 포컬(Focal) 모델 전략을 취한다. 특정 역할에 최적화된 작은 모델을 적재적소에 배치해 거대 모델이 처리하던 불필요한 부하를 분산시키고 전체 시스템의 병목 현상을 제거한다. 이는 지능의 총량을 늘리는 것보다 지능의 배치를 최적화하는 것이 실질적인 성능 향상으로 이어진다는 판단에 근거한다.

포컬 모델은 전체 파이프라인에서 고빈도 작업을 빠르게 처리하는 중간 거점 역할을 수행한다. 최상위 추론 모델이 복잡한 아키텍처 설계나 고난도 로직을 담당한다면 포컬 모델은 그 아래 단계에서 실무적인 제어와 데이터 변환, 입력값 검증을 처리한다. 이 구조를 도입하면 거대 모델의 호출 횟수를 물리적으로 줄이면서 전체 시스템의 응답 속도를 비약적으로 높인다. 결과적으로 개발자는 비용 효율적인 인프라 위에서 예측 가능하고 제어 가능한 AI 워크플로우를 구축하며 운영 리스크를 낮춘다. 단일 모델의 성능에 매몰되지 않고 전체 스택의 효율을 설계하는 관점으로의 전환이다.

라우팅부터 에이전트 보조 작업까지의 실무 적용 범위

API 호출 비용이 0원에 수렴하지 않는 한, 모든 단순 판단에 거대 모델을 쓰는 것은 명백한 자원 낭비다. 프롬프트 분류나 도구 선택 같은 오케스트레이션(Orchestration, 전체 작업 흐름 제어) 단계에서 Mellum2를 전면 배치하면 불필요한 고비용 호출을 원천적으로 막는다. 사용자의 입력 의도를 빠르게 파악해 적절한 API를 매칭하거나 중간 제어 흐름을 처리하는 라우터로 활용하는 방식이다. 단순한 분류 작업에 수천억 개의 파라미터를 가동하는 비효율을 제거해 운영 비용을 낮춘다.

리트리벌(Retrieval, 정보 검색) 파이프라인의 실질적인 병목은 검색된 방대한 양의 컨텍스트를 정제하는 과정에서 발생한다. Mellum2는 검색 후처리 단계에서 불필요한 노이즈를 제거하는 컨텍스트 압축과 핵심 요약 작업을 수행한다. 수집된 문서들 중 정답과 관련 없는 부분을 걷어내고 최적화된 형태로 가공해 최종 모델에 전달한다. 입력 토큰 수를 물리적으로 줄여 비용을 절감하고 응답 속도를 높임으로써 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템의 전체 지연 시간을 직접적으로 단축한다.

에이전트가 복잡한 소프트웨어 엔지니어링 과제를 수행할 때 거치는 계획 수립과 검증 단계에서도 처리 효율이 갈린다. Mellum2는 전체 목표를 쪼개어 하위 작업의 계획을 세우거나, 생성된 코드의 형식을 변환하고 컨텍스트를 준비하는 서브태스크(Subtask, 하위 작업)를 전담한다. 최종 답변을 내놓기 전 단계에서 수행하는 단순 검증이나 데이터 포맷팅 작업을 이 모델이 처리하면, 거대 모델은 오직 고차원적인 논리 추론에만 자원을 집중한다. 파이프라인의 중간 단계들을 경량 모델로 대체해 시스템 전체의 처리량(Throughput)을 극대화한다.

데이터 보안이 필수적인 기업 환경에서는 외부 API 호출 자체가 심각한 제약 사항이자 리스크가 된다. Mellum2는 오픈 모델이므로 독점 코드나 내부 기밀 데이터를 다루는 자체 호스팅(Self-hosted, 자체 서버 구축) 환경에 즉시 배포해 운용한다. 외부 서버로 데이터를 전송하지 않고 내부 인프라 내에서 모든 추론을 완결하며 보안성과 응답 속도를 동시에 확보한다. 인프라 제어권을 완전히 가진 상태에서 고빈도로 발생하는 반복 작업을 처리하는 포컬 모델로 배치해 기업 내부의 보안 가이드라인을 준수한다.

국내 기업의 프라이빗 코드 자산 보호와 인프라 최적화

보안 책임자의 한마디가 프로젝트의 방향을 결정한다. 국내 많은 기업이 LLM 도입을 망설이는 가장 큰 이유는 독점 코드와 내부 데이터의 외부 유출 우려다. 특히 핵심 알고리즘이 포함된 소스 코드를 외부 API 서버로 전송하는 행위는 기업 내부의 보안 감사 단계에서 통과하기 어렵다. Mellum2는 오픈 모델로서 자체 호스팅 환경에 배포할 수 있는 구조를 갖췄다. 기업은 외부 API 호출 없이 내부 인프라 안에서 모델을 직접 구동하며 기업의 지적 재산인 코드 자산을 물리적으로 보호한다. 이는 폐쇄망 환경이나 엄격한 보안 정책을 가진 금융, 제조 분야의 개발 환경에서 AI를 도입할 수 있는 실질적인 경로가 된다.

인프라 운영팀이 체감하는 변화는 호출 비용의 효율화에서 나타난다. 모든 중간 단계 작업에 거대 모델을 호출하면 토큰 사용량에 따른 API 비용이 기하급수적으로 증가하며 이는 곧 예산 압박으로 이어진다. Mellum2를 라우팅이나 검증 같은 중간 단계에 배치하면 고비용 모델의 호출 횟수를 획기적으로 줄인다. 단순한 텍스트 분류나 코드 형식 변환, 간단한 문법 검증 같은 작업은 가벼운 모델이 처리하고, 고도의 추론이 필요한 최종 결과물 생성 단계에서만 거대 모델을 사용하는 계층적 구조를 설계한다. 이 방식은 전체 파이프라인의 운영 비용을 낮추는 동시에, 불필요한 대기 시간을 제거해 전체 시스템의 응답 속도를 높인다.

실제 코드베이스에 적용되는 지점은 매우 구체적이다. IDE(통합 개발 환경) 내장 AI의 실시간 코드 완성 기능이나 RAG(검색 증강 생성) 파이프라인의 컨텍스트 압축 및 요약 단계에 Mellum2를 배치한다. 특히 에이전트 워크플로우에서는 전체 작업 계획 수립, 중간 단계의 결과물 검증, 다음 단계 수행을 위한 컨텍스트 준비 같은 서브태스크를 전담시킨다. 개발자는 복잡한 오케스트레이션 로직 사이에 이 모델을 배치해 거대 모델로 향하는 요청의 양을 조절하고 전체 시스템의 병목을 제거한다. 이는 리트리벌 후처리 작업에서 불필요한 정보를 걸러내어 최종 모델에 전달되는 토큰 수를 줄이는 방식으로 작동한다. 결과적으로 거대 모델 하나에 모든 것을 의존하던 모놀리식 구조에서 벗어나, 작업의 경중과 성격에 맞는 모델을 적재적소에 배치하는 최적화된 AI 스택을 구축한다.

LLM API 호출 시 발생하는 높은 지연 시간과 비용은 실무 도입의 가장 큰 병목이다. Mellum2는 12B MoE 구조의 파라미터 부분 활성화 방식을 통해 유사 규모 모델 대비 2배 이상의 추론 속도를 확보한다. 무거운 거대 모델을 전면에 세우기보다 라우팅과 검증 등 중간 단계에 이 모델을 배치함으로써 전체 파이프라인의 효율을 극대화하는 판단 기준이 필요하다. 결국 AI 스택의 성패는 단일 모델의 체급이 아니라 작업의 난이도에 따라 모델을 분배하는 오케스트레이션 설계 능력에서 갈린다.