한 개발자가 최신 AI 모델을 스마트폰에 직접 이식해 실시간 응답 속도를 측정하는 실험을 직접 해봤다고 한다. 그는 기존 모델에서는 경험하기 어려웠던 즉각적인 반응을 확인했으며, 이는 고성능 AI를 개인 기기에서 구동하는 시대가 한층 가까워졌음을 의미한다.

Gemma 4 라인업과 MTP 기술의 실체

Google은 이번에 공개한 Gemma 4 모델에 MTP(Multi-Token Prediction, 한 번에 여러 개의 단어를 미리 예측하는 기술) 드래프터를 도입했다. 비유하자면, 유능한 비서가 상사가 말할 내용을 미리 예상해 초안을 작성해두면 상사는 이를 빠르게 훑어보고 승인만 하는 과정과 비슷하다. 이 방식을 Speculative Decoding(추측적 디코딩, 가벼운 모델이 먼저 답을 예측하고 무거운 모델이 이를 한꺼번에 검증하여 속도를 높이는 방식) 파이프라인에 적용하면 생성 품질은 유지하면서 디코딩 속도를 최대 2배까지 끌어올릴 수 있다. 지연 시간에 민감한 실시간 서비스나 인터넷 연결이 없는 로컬 기기 환경에서 매우 강력한 이점이 된다.

모델 라인업은 사용 환경에 따라 네 가지 크기로 제공된다. Effective Parameters(유효 파라미터, 실제 연산에 참여하는 매개변수) 기준 23억 개의 E2B, 45억 개의 E4B, 그리고 더 큰 규모인 26B A4B와 31B 모델이 있다. 라이선스는 Apache 2.0으로 공개되어 개발자들이 비교적 자유롭게 활용할 수 있다. 특히 E2B와 E4B 모델은 텍스트와 이미지뿐만 아니라 오디오 입력까지 네이티브하게 처리할 수 있는 멀티모달 능력을 갖췄다. 모든 모델은 140개 이상의 다국어 지원과 함께 최소 128K에서 최대 256K에 이르는 Context Window(컨텍스트 윈도우, 모델이 한 번에 처리할 수 있는 데이터의 양)를 제공한다.

구조적 설계로 바뀐 추론 효율

예전에는 모델의 크기를 줄이면 지능이 함께 떨어지는 것이 당연한 수순이었다면, 이제는 구조적 설계를 통해 이를 극복하고 있다. Gemma 4는 Dense(밀집 구조, 모든 매개변수를 사용하는 방식) 모델과 MoE(Mixture-of-Experts, 여러 개의 전문가 네트워크 중 필요한 부분만 선택적으로 활성화하는 구조) 모델을 모두 제공한다. 비유하자면, 모든 직원이 매달리는 대신 해당 분야의 전문가만 불러내어 처리하는 효율적인 팀 운영 방식이다. 여기에 Sliding Window Attention(슬라이딩 윈도우 어텐션, 특정 범위의 토큰만 참조하여 연산량을 줄이는 방식)과 Global Attention(글로벌 어텐션, 전체 문맥을 모두 참조하는 방식)을 교차 배치한 하이브리드 어텐션 메커니즘을 적용했다. 쉽게 말하면, 돋보기로 세부 내용을 꼼꼼히 보는 것과 전체 지도를 넓게 보는 방식을 동시에 사용하는 셈이다.

메모리 효율을 높이기 위해 글로벌 레이어에는 Unified KV(Unified Key-Value, 키와 값 벡터를 통합하여 메모리 점유율을 낮추는 방식)를 적용했다. 또한 p-RoPE(Proportional Rotary Positional Embedding, 비례 회전식 위치 임베딩) 기술을 통해 긴 문맥에서도 위치 정보를 정확하게 처리하도록 설계했다. 덕분에 가벼운 모델의 처리 속도를 유지하면서도 복잡하고 긴 문맥을 파악하는 깊은 이해력을 잃지 않았다.

개발자가 체감하는 실무적 변화는 제어권의 강화다. System Prompt(시스템 프롬프트, 모델의 역할과 제약 조건을 설정하는 최상위 지침)를 네이티브하게 지원하여 더 구조적이고 통제 가능한 대화형 에이전트를 구축할 수 있다. 코딩 벤치마크 성능 향상과 Function-calling(함수 호출, AI가 외부 도구를 직접 실행하도록 요청하는 기능) 지원은 이 모델이 단순한 챗봇을 넘어 자율적인 에이전트 워크플로우에 최적화되었음을 보여준다.

이제 AI의 경쟁지는 거대 서버실이 아니라 사용자의 주머니 속 스마트폰으로 옮겨갔다.