텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 오픈 모델

모델 하나를 내놓고 기기별 최적화 버전을 나누는 데 걸리던 시간이 이제는 단 한 번의 공개로 압축됐다. 구글 딥마인드가 텍스트와 이미지, 오디오, 비디오라는 네 가지 모달리티를 동시에 처리하는 오픈 모델 Gemma 4 시리즈를 공개했다. 텍스트뿐만 아니라 시각 정보와 음성, 영상 데이터를 한꺼번에 처리하는 능력을 오픈 모델 형태로 제공한다는 점이 핵심이다. 개발자들이 모델을 자유롭게 활용하고 배포할 수 있도록 Apache 2.0 라이선스를 적용해 접근성을 높였다. 모델 라인업은 E2B, E4B, 12B, 26B A4B, 31B 등 총 다섯 가지 크기로 세분화해 제공한다. 이는 전력과 메모리 제약이 큰 스마트폰부터 고성능 연산이 가능한 워크스테이션까지 모든 배포 환경을 지원하기 위한 설계다. 개발자는 서비스가 구동될 실제 하드웨어 사양에 맞춰 최적의 모델 크기를 선택해 즉시 적용할 수 있다.

정답을 내놓기 전 단계적으로 추론하도록 유도하는 설정 가능한 사고 모드(Thinking modes)가 탑재됐다. 모델이 복잡한 코딩 작업이나 논리적 추론이 필수적인 태스크를 수행할 때, 즉각적인 응답 대신 내부적인 추론 단계를 거치게 하여 성능을 끌어올리는 장치다. 여기에 AI가 외부 API나 도구를 직접 호출하는 네이티브 함수 호출(Function-calling) 기능이 더해졌다. 단순히 질문에 답하는 챗봇의 한계를 넘어, 모델이 스스로 필요한 외부 도구를 선택하고 실행하는 자율형 에이전트 구축이 가능해졌다. 추론 과정의 제어권과 외부 도구 실행력을 단일 모델 내에 통합하며 AI의 실질적인 작업 수행 능력을 확장했다.

기존 방식과 달라진 지점

멀티모달 AI를 구현하기 위해 필수적이라고 믿었던 구성 요소들이 불과 몇 달 사이에 사라지고 있다. 12B 통합 모델은 데이터를 모델이 이해할 수 있는 형태로 변환하는 별도의 인코더를 제거하는 방식을 택했다. 기존 멀티모달 모델들이 데이터를 처리하기 위해 반드시 거쳐야 했던 변환 장치를 없앰으로써 소비자용 기기 구동 시 발생하는 메모리 점유 문제를 획기적으로 줄였다. 전처리 모델을 거치지 않고 단일 모델만으로 멀티모달 추론 파이프라인을 단순화해 배포 효율을 극대화했다. 하드웨어 제약이 엄격한 온디바이스(기기 자체 실행) 환경에서 고성능 AI를 구현할 가능성을 앞당겼다는 평가가 나오는 지점이다.

개발자가 체감하는 제어권의 변화는 시스템 역할(System role)의 네이티브 지원에서 나타난다. 개발자는 시스템 프롬프트를 활용해 모델이 취해야 할 페르소나와 응답의 제약 사항을 이전보다 훨씬 정교하게 설정하고 관리할 수 있게 됐다. 이는 기업용 서비스를 구축하는 과정에서 모델이 내놓는 응답 품질을 일관되게 유지하고 통제하는 데 결정적인 역할을 한다. 여기에 140개 이상의 다국어 지원과 향상된 코딩 벤치마크 성능이 더해지며 글로벌 서비스 개발자들이 실제 개발 현장에서 즉각적으로 누릴 수 있는 실익을 확보했다. 다국어 처리 능력과 코딩 성능의 향상은 글로벌 시장을 겨냥한 서비스 개발 속도를 높이는 직접적인 근거가 된다.

기술이 실제로 작동하는 방식

개발자가 긴 문서를 처리할 때 가장 고민하는 지점은 속도를 챙기면 맥락을 놓치고, 맥락을 챙기면 속도가 느려지는 트레이드오프다. 이번 모델은 입력값에 따라 모델의 일부 파라미터만 활성화해 효율을 높이는 MoE(Mixture-of-Experts) 구조와 밀집형인 Dense 아키텍처를 모두 제공하는 선택지를 줬다. 특히 로컬 슬라이딩 윈도우 어텐션과 전체 글로벌 어텐션을 교차 배치한 하이브리드 어텐션 메커니즘이 핵심이다. 근처의 토큰만 집중해서 보는 방식과 전체를 훑는 방식을 교차 운용함으로써, 모델의 가벼운 처리 속도를 유지하면서도 복잡한 장문의 맥락을 놓치지 않도록 설계했다.

메모리 최적화를 위한 장치들은 글로벌 레이어에 집중 배치됐다. 통합 키-값(Unified KV) 구조를 적용하고, 위치 정보를 비율로 처리해 긴 문맥을 더 잘 이해하게 하는 p-RoPE(Proportional Rotary Positional Embedding) 기술을 도입했다. 위치 정보를 단순 순서가 아닌 비율로 처리하는 p-RoPE 덕분에 모델은 더 넓은 범위의 텍스트 관계를 파악할 수 있다. 이는 메모리 사용량을 줄이면서도 추론의 정확도를 유지하는 장치가 된다.

이러한 설계는 중형 모델 기준으로 최대 256K 토큰의 컨텍스트 창을 확보하는 결과로 이어졌다. 256K라는 수치는 수백 페이지 분량의 방대한 문서를 한 번의 추론 과정에서 한꺼번에 처리할 수 있는 물리적 능력을 의미한다. 전처리 과정에서 문서를 쪼개지 않고도 전체 맥락을 한 번에 입력해 처리할 수 있는 환경이 마련된 셈이다.

구글은 12B 통합 모델에서 기존 멀티모달 모델의 필수 요소였던 별도 인코더를 제거했다. 하이브리드 어텐션 메커니즘과 p-RoPE를 통해 최대 256K의 컨텍스트 창을 지원하며 기술적 밀도를 높였다.

전처리 모델 없이 단일 모델만으로 멀티모달 추론 파이프라인을 단순화한 점은 배포 효율의 핵심이다. 결국 불필요한 단계를 걷어낸 파이프라인의 단순함이 온디바이스 AI의 실질적인 상용화 속도를 결정한다.