매일 수백만 건의 AI 추론 요청을 처리하는 개발자라면, 작은 모델로도 고급 추론이 가능해지는 순간을 기다려 왔다. 이번 주 구글이 내놓은 Gemma 4는 바로 그 지점을 겨냥한다.

4가지 크기로 나온 Gemma 4, 31B가 오픈 모델 3위

구글은 4월 1일, Gemma 4를 네 가지 크기로 공개했다. Effective 2B(E2B), Effective 4B(E4B), 26B Mixture of Experts(MoE, 전문가 혼합 구조), 31B Dense(밀집 모델)다. 31B 모델은 업계 표준 벤치마크인 Arena AI 텍스트 리더보드에서 오픈 모델 중 3위, 26B 모델은 6위를 차지했다. 구글에 따르면 Gemma 4는 자기보다 20배 큰 모델과도 경쟁할 수 있다. 모든 모델은 Apache 2.0 라이선스로 배포되며, 상업적 사용에 제한이 없다. 첫 세대 출시 이후 Gemma 모델은 4억 회 이상 다운로드되었고, 10만 개 이상의 변형 모델이 만들어졌다.

예전에는 큰 모델이 무조건 좋았다면, 이제는 파라미터당 성능이 승부처

예전에는 모델 크기가 곧 성능이었다. 하지만 Gemma 4는 파라미터당 지능(intelligence-per-parameter)이라는 새로운 기준을 내세운다. 26B MoE 모델은 추론 시 전체 260억 개 중 단 38억 개의 파라미터만 활성화해 지연 시간을 최소화한다. 반면 31B Dense 모델은 모든 파라미터를 사용해 최대 품질을 내고, 미세 조정(fine-tuning, 특정 작업에 맞게 모델을 추가 학습시키는 과정)에 적합하다. 가장 작은 E2B와 E4B 모델은 스마트폰, 라즈베리파이, NVIDIA Jetson Orin Nano 같은 엣지(edge, 기기 자체에서 처리) 환경에서 완전 오프라인으로 작동한다. 구글은 픽셀 팀, 퀄컴, 미디어텍과 협력해 이 모델들이 배터리와 RAM을 절약하면서 거의 즉각적인 응답을 내도록 설계했다.

개발자가 바로 체감하는 변화는 하드웨어 요구 사항이다. 31B 모델의 bfloat16 가중치(가중치, 모델이 학습한 숫자 값)는 80GB NVIDIA H100 GPU 한 장에 들어간다. 양자화(quantized, 숫자 정밀도를 낮춰 메모리를 줄이는 기술) 버전은 일반 소비자용 GPU에서도 IDE(통합 개발 환경), 코딩 어시스턴트, 에이전트 워크플로(agentic workflows, AI가 스스로 판단해 작업을 수행하는 흐름)를 구동할 수 있다. 안드로이드 개발자는 AICore Developer Preview에서 Gemini Nano 4와의 호환성을 미리 테스트할 수 있다. Yale 대학은 Gemma를 활용해 암 치료 경로를 발견하는 Cell2Sentence-Scale 프로젝트를 진행했고, INSAIT는 불가리아어 최초 언어 모델 BgGPT를 만들었다.