변환기 없이 오디오·비디오 직접 읽는 구글 Gemma 4 공개

텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 개방형

기존의 온디바이스 AI가 무거운 연산량으로 팬 소음을 유발하며 버벅거렸다면, 이번 모델은 설계 단계부터 가벼운 구조를 택해 정반대의 경험을 제공한다. 구글 딥마인드가 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 개방형 모델 Gemma 4 시리즈를 공개했다. 그중 핵심인 12B Unified 모델은 별도의 인코더(데이터를 AI가 이해할 수 있는 숫자로 바꿔주는 변환기) 없이도 멀티모달 기능을 수행한다. 모델 하나가 여러 형태의 입력을 한꺼번에 처리하는 통합 구조를 갖추면서 로컬 환경에서의 효율적인 실행이 가능해졌다.

데이터를 변환하는 중간 단계가 사라지면서 AI의 전체 덩치인 배포 크기가 획기적으로 줄어들었다. 덕분에 고성능 서버의 도움 없이 노트북이나 모바일 기기 같은 소비자 환경에서도 지연 시간 없이 멀티모달 AI를 구동할 수 있다. 특히 12B 모델은 텍스트를 넘어 오디오와 비디오 입력까지 네이티브(외부 도구 없이 모델이 직접 읽어들이는 방식)하게 지원한다. 영상이나 소리 데이터를 따로 가공해 전달할 필요 없이 모델이 직접 받아들이기에 데이터 처리 경로가 훨씬 짧아졌다.

여러 종류의 데이터를 한꺼번에 분석하는 복합 시나리오에서 처리 속도와 효율이 동시에 올라갔다. 별도의 전처리 모델 없이 기능을 구현해 온디바이스 배포 크기와 응답 지연 시간을 얼마나 줄였는지가 이번 모델의 실용성을 가르는 핵심이다. 인코더 프리 설계와 네이티브 멀티모달 지원을 통해 모바일 기기에서도 끊김 없는 AI 경험을 구현하며 온디바이스 AI의 실용성을 극대화했다.

별도의 전처리 모델 없이 내부에서 직접 데이터를 처리하는 통합

노트북에서 AI를 돌릴 때마다 팬이 굉음을 내고 반응이 한 박자 늦었던 이유는 모델이 너무 무거웠기 때문이다. 기존 멀티모달 모델은 이미지나 소리 같은 외부 데이터를 해석하기 위해 별도의 전처리 모델인 인코더(데이터를 AI가 이해하기 쉽게 변환하는 장치)를 거쳐야 했다. Gemma 4는 이 과정을 없앤 인코더 프리(Encoder-free) 설계를 도입해 텍스트, 이미지, 오디오, 비디오를 모델 내부에서 직접 처리하는 통합 구조를 채택했다. 중간에 데이터를 변환해 전달하는 외부 단계를 걷어내면서 온디바이스 배포 크기를 획기적으로 줄였다. 별도의 전처리 모델 없이 멀티모달 기능을 구현해 지연 시간을 낮춘 결과다.

기기에 맞춘 최적화는 모델 크기의 세분화에서 나타난다. E2B, E4B, 12B, 26B A4B, 31B까지 총 다섯 가지 크기로 제공되어 고성능 스마트폰부터 서버급 워크스테이션까지 폭넓은 배포 환경을 지원한다. 사용자는 자신의 하드웨어 성능에 맞춰 모델을 선택해 지연 시간을 조절할 수 있다. 소형 모델은 스마트폰에서, 대형 모델은 워크스테이션에서 구동하며 최적의 효율을 찾는 방식이다.

여기에 상업적 목적으로 자유롭게 활용할 수 있는 Apache 2.0 라이선스를 적용했다. 개발자가 비용이나 권한 제약 없이 자신의 서비스 환경에 맞는 크기를 골라 즉시 배포할 수 있는 조건이다. 오픈 소스 라이선스를 통해 다양한 상업적 서비스에 빠르게 이식할 수 있게 됐으며, 이는 개발자들에게 더 넓은 선택지를 제공한다.

함수 호출 지원과 사고 모드 도입으로 자율적 AI 에이전트

AI가 외부 도구를 쓰려면 사람이 중간에서 명령어를 전달하고 결과를 다시 넣어줘야 한다고 믿었다. 하지만 이제는 모델이 직접 외부 도구를 불러 쓰는 함수 호출(Function-calling) 기능을 기본으로 갖췄다. 개발자가 복잡한 연결 고리를 일일이 설계하지 않아도 AI가 스스로 필요한 도구를 선택해 작업을 완수하는 자율 에이전트 구축 과정이 매우 단순해졌다. 여기에 사용자가 설정할 수 있는 사고 모드(Thinking modes)를 더해 까다로운 코딩이나 논리적 추론 작업에서 정답을 찾아내는 정확도를 대폭 높였다. 추론 능력이 강화되면서 복잡한 문제 해결 단계가 더 정교해졌다.

처리 속도를 높이려면 문맥 파악 능력을 포기하고, 문맥을 잡으려면 속도가 느려지는 것이 일반적인 제약이었다. 이번 모델은 특정 범위의 토큰만 집중해서 보는 로컬 슬라이딩 윈도우 어텐션과 전체 토큰을 모두 살피는 글로벌 어텐션을 교차 사용하는 하이브리드 메커니즘을 적용했다. 빠르게 응답하면서도 복잡한 문맥을 놓치지 않는 구조를 확보해 속도와 성능이라는 두 마리 토끼를 잡았다.

메모리 효율을 극대화하기 위한 기술적 장치도 촘촘하게 배치했다. 통합 키-값(Unified Keys and Values) 구조를 통해 데이터 처리 시 발생하는 자원 낭비를 줄이고 효율을 높였다. 특히 위치 정보를 비율로 처리해 긴 문맥을 효율적으로 다루는 p-RoPE(Proportional Rotary Positional Embedding) 기술을 적용했다. 덕분에 아주 긴 대화나 방대한 문서에서도 정보의 위치를 정확하게 파악하며 메모리 부하를 획기적으로 낮췄다.

노트북에서 AI를 돌릴 때 팬이 굉음을 내고 반응이 느렸던 건 모델이 너무 무거웠기 때문이다. Gemma 4는 데이터를 해석하는 번역기인 인코더 없이 텍스트와 영상 등을 한꺼번에 처리하는 통합 구조를 택했다. 여기에 주변 정보와 전체 맥락을 번갈아 살피는 하이브리드 어텐션 방식을 더해 연산 효율을 높였다.

결국 관건은 전처리 모델을 걷어낸 설계가 온디바이스 배포 크기와 지연 시간을 얼마나 획기적으로 줄였느냐에 있다. 무거운 짐을 덜어낸 모델이 기기 내부에서 얼마나 가볍게 움직이는지가 온디바이스 AI의 실질적인 사용성을 결정한다.

변환기 없이 오디오·비디오 직접 읽는 구글 Gemma 4 공개

텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 개방형

별도의 전처리 모델 없이 내부에서 직접 데이터를 처리하는 통합

함수 호출 지원과 사고 모드 도입으로 자율적 AI 에이전트

관련 기사