45억 파라미터 Gemma 4, 추론 속도 3배 높여 온디바이스 AI 정조준

45억. 이번에 공개된 Gemma 4(Google이 개발한 오픈형 경량 언어 모델)의 E4B 모델이 가진 유효 파라미터 수치다. 이 숫자는 스마트폰이나 노트북 같은 개인 기기에서 AI를 구동할 때 성능과 효율 사이의 황금 밸런스를 맞추기 위해 설계된 핵심 지표다. 마치 고성능 스포츠카의 엔진 배기량을 최적화해 연비와 속도를 동시에 잡은 것과 같다. 그런데 개발자 커뮤니티에서는 이 수치보다 모델이 보여주는 실제 추론 속도에 더 뜨거운 반응을 보이고 있다.

MTP와 추측적 디코딩으로 구현한 3배의 속도

Google DeepMind는 이번 업데이트에서 MTP(Multi-Token Prediction, 여러 단어를 한 번에 예측하는 기술)를 전면에 내세웠다. 기존 모델이 다음 단어 하나를 생성하기 위해 매번 연산을 반복했다면, 이제는 여러 토큰을 동시에 예측해 추론 효율을 극대화한다. 이를 추측적 디코딩(Speculative Decoding, 작은 모델이 초안을 만들고 큰 모델이 검증하는 방식) 파이프라인과 결합하자 속도는 이전 세대 대비 최대 3배까지 빨라졌다. 모델 라인업은 유효 파라미터 23억 개의 E2B부터 45억 개의 E4B, 그리고 26B A4B와 31B 모델까지 총 네 가지로 구성된다. 모든 모델은 Apache 2.0 라이선스로 배포되어 상업적 제약 없이 누구나 즉시 활용할 수 있다.

하이브리드 어텐션으로 확보한 256K 문맥 창

예전에는 긴 문서를 처리할 때 메모리 부족 현상이 고질적인 문제였다면, 이제는 하이브리드 어텐션(Hybrid Attention, 연산 효율을 위해 국소적 범위와 전체 범위를 섞어서 처리하는 방식)을 통해 이를 해결했다. 로컬 슬라이딩 윈도우 어텐션(Local Sliding Window Attention, 인접한 토큰 위주로 집중하는 방식)과 글로벌 어텐션(Global Attention, 전체 문맥을 파악하는 방식)을 교차 배치해 연산량을 획기적으로 줄였다. 특히 p-RoPE(Proportional Rotary Positional Embedding, 위치 정보를 효율적으로 인코딩하는 기술)를 적용해 중형 모델 기준 최대 256K 토큰까지 처리할 수 있게 되었다. 이는 방대한 기술 문서나 코드 베이스를 기기 내부에서 직접 분석하려는 개발자들에게는 큰 변화다.

에이전트 구축을 위한 멀티모달과 함수 호출 지원

개발자가 바로 체감하는 변화는 모델의 멀티모달 능력과 도구 연결성이다. 모든 모델이 텍스트와 이미지를 동시에 이해하며, 특히 E2B와 E4B 모델은 오디오 입력까지 네이티브하게 처리한다. 여기에 함수 호출(Function-calling, AI가 외부 API나 도구를 직접 실행하는 기능)을 기본 지원해 단순한 대화형 챗봇을 넘어 자율적인 에이전트(Agent, 스스로 판단해 작업을 수행하는 프로그램)를 구축하기가 훨씬 수월해졌다. 시스템 프롬프트(System Prompt, 모델의 페르소나와 제약 사항을 정의하는 지침) 공식 지원까지 더해져, 개발자는 모델의 답변 방향을 훨씬 정교하게 통제할 수 있게 되었다.

고성능 GPU(Graphics Processing Unit, 복잡한 연산을 병렬로 처리하는 장치) 없이도 로컬 환경에서 최첨단 AI 기능을 구현할 수 있는 현실적인 선택지가 열렸다.

45억 파라미터 Gemma 4, 추론 속도 3배 높여 온디바이스 AI 정조준

MTP와 추측적 디코딩으로 구현한 3배의 속도

하이브리드 어텐션으로 확보한 256K 문맥 창

에이전트 구축을 위한 멀티모달과 함수 호출 지원

관련 기사