사용자가 거대 언어 모델을 서비스에 적용할 때 가장 먼저 마주하는 벽은 느린 응답 속도다. 모델의 성능이 아무리 뛰어나도 답변이 생성되는 속도가 답답하면 실무에서 활용하기 어렵다. 최근 Google이 Gemma 4(Google이 공개한 오픈 모델 제품군)를 위해 내놓은 MTP(Multi-Token Prediction, 여러 토큰을 한 번에 예측하는 기술) 드래프터는 바로 이 속도 문제를 해결하기 위해 등장했다. 이 기술은 모델의 답변 품질을 전혀 깎아먹지 않으면서도 추론 속도를 최대 3배까지 끌어올린다.

Gemma 4 MTP 드래프터의 기술적 사실

Google이 이번에 발표한 MTP 드래프터는 추론 과정에서 발생하는 메모리 대역폭 병목 현상을 정면으로 공략한다. 현재 대부분의 거대 언어 모델은 한 번에 딱 하나의 토큰(단어 조각)만 순차적으로 생성하는 자기회귀(Autoregressive) 방식을 따른다. 이 방식은 토큰 하나를 만들 때마다 수십억 개의 매개변수를 비디오 램(VRAM, 그래픽 카드 전용 메모리)에서 연산 장치로 불러와야 한다. 문제는 연산 장치의 계산 능력보다 데이터를 옮기는 통로인 메모리 대역폭이 훨씬 좁다는 점이다. 결과적으로 연산 장치는 데이터가 도착하기를 기다리며 노는 시간이 많아진다. Google은 이 문제를 해결하기 위해 Gemma 4 모델 가중치와 기술 문서를 공개하며 추론 효율을 극대화했다.

추론 방식의 변화와 비교

예전에는 모델이 다음 단어를 예측할 때 무조건 한 단계씩 정직하게 계산했다. 하지만 이제는 추측과 검증이라는 이원화된 구조를 사용한다. 쉽게 말하면, 가볍고 빠른 드래프터 모델이 미래에 올 단어들을 미리 여러 개 묶어서 제안하고, 덩치가 큰 본 모델(Target Model)이 이 제안들이 맞는지 한꺼번에 검토하는 방식이다. 비유하자면, 숙련된 전문가가 혼자서 모든 문장을 한 글자씩 쓰는 대신, 보조 인력이 초안을 빠르게 작성해오면 전문가가 이를 훑어보고 승인하는 것과 같다. 만약 보조 인력의 예측이 맞다면, 본 모델은 그만큼의 시간을 절약해 답변을 훨씬 빨리 내놓을 수 있다. 이 과정에서 본 모델이 최종 검증을 거치기 때문에 결과물의 정확도는 기존과 동일하게 유지된다.

개발자가 체감할 성능 변화

개발자가 바로 체감하는 변화는 하드웨어 자원을 활용하는 효율성이다. Google은 드래프터가 본 모델의 활성화 값과 KV 캐시(Key-Value Cache, 이전 연산 결과를 저장해 재사용하는 메모리 공간)를 공유하도록 설계했다. 덕분에 이미 처리한 문맥을 다시 계산할 필요가 없어졌다. 특히 모바일이나 엣지 기기(소형 단말기)를 위한 E2B, E4B 모델에는 임베더 층(모델이 단어를 숫자로 바꾸는 단계)에 클러스터링 기법을 적용해 연산 속도를 높였다. 하드웨어별로 보면, Apple Silicon 환경에서는 배치 사이즈(한 번에 처리하는 데이터 묶음)를 4에서 8 사이로 설정할 때 최대 2.2배의 속도 향상을 기대할 수 있다. NVIDIA A100(고성능 데이터센터용 GPU)에서도 이와 유사한 성능 개선이 확인되었다.

기술의 핵심은 연산의 낭비를 줄이는 데 있다. 이제 모델은 쉬운 단어를 예측할 때와 어려운 논리를 풀 때 똑같은 힘을 들이지 않는다.