노트북 한 대로 오디오·비디오 분석... 구글 'Gemma 4 12B' 공개

구글이 119.5억 개의 파라미터를 가진 오픈 웨이트 모델

거대한 데이터 센터가 있어야만 고성능 AI를 쓸 수 있다는 믿음은 이제 옛말이다. 16GB VRAM(비디오 램, 그래픽 카드 전용 메모리)이나 통합 메모리를 갖춘 일반 기업용 노트북에서도 로컬로 돌아가는 Gemma 4 12B가 공개됐다. 119.5억 개의 파라미터(인공지능이 학습한 정보의 연결 고리)를 가진 이 모델은 누구나 가져다 쓸 수 있는 오픈 웨이트 방식으로 배포됐다. Apache 2.0 라이선스가 적용되어 상업적 이용 등 제약이 적으며, Hugging Face, Kaggle, Google AI Edge Gallery에서 즉시 내려받아 사용할 수 있다. 클라우드 연결 없이 내 컴퓨터 안에서 AI를 직접 돌리니 데이터 유출 걱정이 사라지고 매달 나가는 구독 비용 부담도 없다.

256K 토큰의 컨텍스트 윈도우(AI가 한 번에 기억하고 처리하는 정보의 양)를 탑재해 수백 페이지의 금융 보고서나 방대한 코드 저장소, 긴 회의 녹취록을 한 번에 읽어낸다. 특히 정답을 내놓기 전 스스로 추론 과정을 설계하는 thinking 모드를 통해 복잡한 문제도 단계별로 짚어가며 풀어낸다. 여기에 네이티브 함수 호출(외부 프로그램의 기능을 AI가 직접 실행하는 방식)과 시스템 프롬프트(AI에게 부여하는 기본 역할 설정) 기능까지 기본으로 지원한다. 이를 통해 개발자는 사람이 일일이 지시하지 않아도 스스로 판단해 작업을 수행하는 자율 소프트웨어 에이전트를 훨씬 쉽게 구축할 수 있다. 하드웨어 사양만 맞춘다면 폐쇄적인 보안 환경에서도 고성능 멀티모달 에이전트를 운용할 수 있는 실질적인 기준점이 마련된 셈이다.

인코더가 없는 'Unified' 아키텍처를 통해 오디오와 시각

기업이 보안 검토와 컴플라이언스 확인으로 수개월을 소모하는 동안, 로컬 실행 모델을 쓴 빌더는 즉시 데이터를 처리한다. Gemma 4 12B는 별도의 인코더(데이터를 AI가 이해하도록 변환하는 장치) 없이 오디오와 시각 데이터를 LLM 백본(모델의 핵심 뇌)에 직접 전달하는 통합 아키텍처를 쓴다. 시각 패치와 원시 오디오 파형을 가벼운 선형 레이어(단순한 수학적 필터)를 통해 임베딩 공간(데이터를 숫자로 좌표화한 공간)으로 바로 투영한다. 시각 인코더는 단 한 번의 행렬 곱셈만 수행하는 3,500만 파라미터(AI의 지식 단위) 모듈로 대체했고 오디오 인코더는 아예 없앴다. 복잡한 변환 과정을 거치지 않고 데이터가 곧바로 핵심 뇌로 흘러 들어가는 구조라 지연 시간과 메모리 오버헤드(불필요한 자원 소모)가 크게 줄었다.

16GB VRAM(그래픽 메모리)이나 통합 메모리를 갖춘 일반 기업용 노트북에서도 이 모델을 로컬로 구동할 수 있다. 민감한 데이터를 외부 API(소프트웨어 간 연결 통로)로 전송하지 않고 온프레미스(자체 서버 설치 방식)나 개인 노트북에서 직접 처리한다. 의료, 금융, 국방처럼 규제가 엄격한 분야에서 데이터 유출 위험을 없애고 법적 준수 사항을 지키기에 적합하다. 클라우드 연결 비용과 API 호출 비용을 모두 없애 총 소유 비용(TCO, 시스템 도입부터 운영까지 드는 전체 비용)을 낮추는 하드웨어 기준점이 된다.

기술이 실제로 작동하는 방식

비행기 안이나 보안 구역처럼 인터넷 연결이 불가능한 환경에서 AI를 쓰려다 막막했던 경험이 있을 것이다. Gemma 4 12B는 16GB VRAM(비디오 전용 메모리)이나 통합 메모리(CPU와 GPU가 함께 쓰는 메모리)를 갖춘 일반 기업용 노트북에서 로컬로 돌아간다. 와이파이가 없는 비행 중이거나 보안상의 이유로 오프라인 상태를 유지해야 하는 기업 사용자가 AI를 훨씬 쉽게 쓸 수 있게 됐다. 다운로드와 운영이 모두 무료라 도입과 유지에 드는 비용 부담이 거의 없다. 클라우드 서버를 거치지 않고 내 기기에서 직접 연산하므로 보안이 보장된 환경에서 멀티모달 에이전트를 구축할 수 있는 하드웨어 기준점이 마련된 셈이다.

다만 모델 크기를 줄여 일반적인 노트북 사양에 맞춘 만큼 입력 가능한 미디어 데이터 양에는 하드 리밋(hard limit, 절대적 제한)이 존재한다. 오디오는 최대 30초, 비디오는 초당 1프레임 기준으로 최대 60초까지만 처리할 수 있다. 모델의 물리적 크기가 작아 한 번에 수집하고 이해할 수 있는 정보의 양에 한계가 있기 때문이다. 장편 영화 같은 긴 영상이나 방대한 오디오 아카이브를 분석하려는 기업은 이 지점에서 성능 병목 현상을 겪게 된다. 이를 해결하려면 데이터를 작은 단위로 나누어 처리하는 청킹(chunking) 아키텍처를 도입하거나 API(응용 프로그램 인터페이스) 기반 모델을 고려해야 한다. 로컬 구동의 편의성과 보안성을 얻은 대신 처리 가능한 데이터의 길이라는 물리적 제약을 맞바꾼 결과다.

비행기 안이나 보안 구역처럼 인터넷 연결이 불가능한 환경에서 AI를 쓰고 싶던 갈증이 해소된다. 16GB 비디오 램을 갖춘 일반 기업용 노트북에서 120억 개의 매개변수를 가진 Gemma 4 12B가 로컬로 구동되기 때문이다. 데이터가 별도의 변환 과정 없이 모델로 바로 들어가는 통합 구조를 통해 효율을 높였다. 클라우드 비용 없이 보안이 보장된 멀티모달 에이전트를 구축할 수 있는 하드웨어 기준점이 마련된 셈이다. 이제 AI의 실행력은 거대 서버가 아닌 내 노트북의 사양에서 결정된다.

노트북 한 대로 오디오·비디오 분석... 구글 'Gemma 4 12B' 공개

구글이 119.5억 개의 파라미터를 가진 오픈 웨이트 모델

인코더가 없는 'Unified' 아키텍처를 통해 오디오와 시각

기술이 실제로 작동하는 방식

관련 기사