Google이 연례 I/O 개발자 컨퍼런스에서 모든 입력과 출력을 단일 모델로 처리하는 네이티브 멀티모달 모델 'Gemini Omni'를 공개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 서로 다른 모달리티를 하나의 파운데이션 모델 내에서 통합 처리하며, 특히 비디오 생성을 핵심 기능으로 내세운다. 기존의 생성 AI 스택이 텍스트-이미지, 이미지-비디오 등 개별 모델을 체인 형태로 연결해 결과를 도출했던 것과 달리, Omni는 단일 편집 표면을 통해 모든 과정을 처리하는 구조를 취한다.

주목할 점은 이번 모델의 배포 전략이다. Gemini Omni Flash는 현재 AI Plus(월 20달러) 및 새롭게 발표된 AI Ultra(월 100달러) 구독자에게 우선 제공된다. 반면 기업들이 실제 서비스에 도입하기 위해 필수적인 Vertex AI API(Google의 기업용 AI 플랫폼) 제공 시점은 '향후 몇 주 내'로 예고되어 있다. 이는 소비자용 도구로서의 접근성은 즉각적이나, 기업의 프로덕션 환경에 적용하기까지는 일정 수준의 시차가 존재함을 의미한다. 결과적으로 현재의 Omni는 기업 전체의 인프라 도입보다는 개별 실무자의 생산성 도구로서 먼저 검토되어야 하는 단계에 있으며, API 출시 이후의 비용 효율성이 기업용 제품으로서의 최종 생존 여부를 결정할 것으로 보인다.

Gemini Omni Flash의 출시 일정과 구독 플랜 수치

구글은 이번 발표를 통해 Gemini Omni Flash의 개인용 구독 플랜 수치를 먼저 공개했다. AI Plus 플랜의 가격은 사용자당 월 20달러로 책정되었다. 반면 고성능 작업자를 겨냥한 AI Ultra 플랜은 월 100달러의 비용이 발생한다. 주목할 점은 AI Ultra 플랜 가입자에게 제공되는 Google Antigravity 우선 접근권이다. 이 플랜은 개발자, 기술 리드, 지식 노동자 및 고급 크리에이터를 타겟으로 하며 더 높은 사용 한도와 Omni Flash 접근권을 묶음으로 제공한다. 소규모 크리에이티브 팀이 API 출시 전 모델을 가장 빠르게 평가할 수 있는 경로로 설계되었다.

개인용 플랜의 즉시 출시와 달리 기업용 인터페이스인 Vertex AI API는 향후 몇 주 내(in the coming weeks) 출시될 예정이다. 그러나 이러한 출시 시점의 간극은 기업 입장에서 상당한 제약으로 작용한다. Vertex AI API가 정식 제공되기 전까지 Omni Flash는 사실상 소비자 및 프로슈머용 도구에 머물기 때문이다. 기업 수준의 SLA(Service Level Agreement, 서비스 수준 협약)와 데이터 처리 약속이 적용되는 지점이 API 영역임을 고려하면, 프로그램 방식의 인터페이스 없이는 실제 생산 환경 도입이 불가능하다. 결국 기업의 파일럿 프로젝트는 API 출시 이후에나 본격적인 검토가 가능하다.

기술적 핵심은 텍스트, 이미지, 오디오, 비디오의 임의 조합을 입출력으로 처리하는 네이티브 멀티모달 구조에 있다. 기존의 텍스트-이미지, 이미지-비디오 등으로 이어지는 특화 시스템의 릴레이 방식과 달리, 단일 파운데이션 모델이 모든 모달리티를 동시에 추론한다. 이러한 구조는 더 일관된 편집 결과물을 내고 파이프라인 아티팩트를 줄이며 개발자를 위한 API 표면을 단순화하는 결과로 이어진다. 특히 대화형 비디오 편집(Conversational video editing) 기능은 각 지시 사항이 이전 단계 위에 쌓이는 구조를 취한다. 과거의 지시가 대화 턴을 넘어 유지되므로 사용자가 반복적으로 수정할 때 비디오가 일관성을 유지하며 진화한다.

구체적인 적용 사례로는 클립 내부의 세계관 변경, 액션이나 카메라 각도의 재구성, 여러 턴에 걸친 시퀀스 정밀화 등이 포함된다. 또한 중력, 운동 에너지, 유체 역학 등 물리 법칙에 대한 개선이 이루어졌다. 이는 단순히 시각적 유사성을 높이는 수준을 넘어 AI 비디오 특유의 부자연스러움을 제거하고 실제 촬영 영상과 같은 질감을 구현하는 데 집중한 결과다. 이러한 물리 엔진의 개선은 영상의 사실성을 결정짓는 핵심 지표가 된다.

GPT-4o 대비 네이티브 멀티모달 구조의 기술적 차별점

개발자가 체감하는 가장 큰 변화는 개별 모델을 수동으로 연결하던 워크플로우의 통합이다. 기존의 멀티모달 작업은 텍스트-이미지, 이미지-비디오, 립싱크 및 음성 모델을 각각 호출하여 결과물을 이어 붙이는 릴레이 방식으로 진행되었다. 각 모델마다 서로 다른 API 계약 조건과 데이터 경로, 빌링 체계를 가졌기에 전체 파이프라인을 구축하고 유지보수하는 운영 비용이 상당했다. 반면 제미나이 옴니(Gemini Omni, 구글의 네이티브 멀티모달 모델)는 이러한 생성 스택을 단일 파운데이션 모델로 통합하여 하나의 편집 표면에서 모든 제어가 가능하도록 설계되었다. 이는 기업 입장에서 조달 과정과 관측 가능성을 한 곳으로 집중시킬 수 있다는 실무적 이점으로 이어진다.

기술적 차별점은 구글이 강조하는 그라운드-업(Ground-up) 네이티브 설계의 구현 방식에 있다. 전문 시스템을 순차적으로 거치는 기존 방식과 달리, 단일 모델의 전방 패스(Forward Pass, 입력 데이터가 출력층으로 전달되는 과정) 추론을 통해 여러 모달리티를 동시에 처리하고 추론한다. 이러한 구조는 서로 다른 모델 사이에서 데이터를 주고받을 때 발생하는 파이프라인 아티팩트(Pipeline Artifacts, 처리 단계 사이의 불일치나 노이즈)를 근본적으로 억제한다. 주목할 점은 단일 모델 내에서 모달리티 간 추론이 직접적으로 이루어지기에 편집의 일관성이 비약적으로 높아졌다는 것이다. 결과적으로 개발자는 복잡한 모델 체이닝 과정 없이 간결한 API 표면을 통해 고품질의 멀티모달 출력을 얻을 수 있으며, 이는 전체 시스템의 지연 시간을 줄이는 효과를 가져온다.

유사한 경로를 밟았던 오픈에이아이(OpenAI)의 GPT-4o와 비교하면 기술적 지향점과 결과에서 뚜렷한 차이가 드러난다. GPT-4o는 2024년 5월 출시 당시 텍스트, 코드, 이미지, 오디오를 통합 분석하고 생성하는 네이티브 구조를 지향하며 시장의 흐름을 주도했다. 그러나 비디오 생성 기능을 지원하지 않았으며, 사용자의 의견에 무조건 동조하는 아첨(Sycophancy) 문제와 사용자 간의 파라소셜 관계 형성 같은 모델 제어 실패 사례가 보고되며 최종적으로 폐기되는 수순을 밟았다. 반면 제미나이 옴니는 비디오 생성을 핵심 역량으로 통합했을 뿐만 아니라, 이전 지시 사항이 다음 턴으로 유지되는 대화형 비디오 편집 패턴을 통해 일관된 영상 진화를 구현했다. 이는 단순한 모달리티 확장을 넘어 추론의 연속성을 확보했다는 점에서 GPT-4o가 보여준 한계를 구조적으로 극복한 설계라고 분석된다.

기업용 미디어 엔진 전환과 SynthID 기반의 컴플라이언스 체계

기업의 콘텐츠 제작 공정은 그동안 텍스트-이미지, 이미지-비디오, 립싱크 및 음성 모델을 각각 별도로 연결해 사용하는 파편화된 구조였다. 반면 Gemini Omni는 이를 단일 Vertex AI(구글의 기업용 AI 플랫폼) 기반 모델로 통합하며 단순한 크리에이티브 도구가 아닌 프로그래머블 미디어 엔진으로의 전환을 꾀한다. 세일즈와 마케팅 분야에서는 에이전시의 개별 자산 제작 주기 없이 광고 변형물과 현지화 콘텐츠, 제품 데모를 빠르게 생성하는 것이 가능하다. L&D(학습 및 개발) 부문에서는 비전문가도 온보딩 모듈이나 정책 안내 영상을 직접 제작할 수 있으며, 고객 지원 단계에서는 사용자의 쿼리에 따라 동적으로 변하는 시각 설명서를 도움말 문서에 결합하는 방식이 도입된다. 엔지니어링 팀 역시 UI 워크스루(사용자 인터페이스 시연)나 시뮬레이션 시각화, 사양 검토용 컨셉 영상을 통해 개발 단계의 소통 비용을 획기적으로 줄일 수 있다. 이러한 통합은 조달 과정과 관찰 가능성을 단일 지점으로 수렴시켜 운영 효율을 높인다.

기술적 통합보다 주목할 점은 보안과 컴플라이언스 체계의 내재화다. 모든 생성 비디오에는 SynthID(구글의 디지털 워터마킹 기술)가 적용되어 AI 생성 여부를 식별할 수 있는 표식을 남긴다. 그러나 구글은 여기서 나아가 C2PA(콘텐츠 출처 및 진위 확인을 위한 개방형 표준)를 생성 도구 전반으로 확대하고, Agent Platform 내에 AI 콘텐츠 탐지 API를 출시했다. 이는 기업이 자사 콘텐츠 파이프라인으로 유입되는 외부 AI 생성물을 식별하고 필터링할 수 있는 제어권을 갖게 함을 의미한다. 특히 합성 미디어 공개 규제를 강화하고 있는 EU(유럽연합) 등 주요 규제 지역에서 법적 증거 경로인 감사 추적(Audit trail)을 제공한다는 점은 기업의 법무 및 컴플라이언스 팀에 실질적인 방어 기제를 제공한다. 이는 단순한 기능 추가가 아니라 기업용 솔루션으로서 갖춰야 할 법적 안전장치를 인프라 수준에서 구축한 결과다.

콘텐츠의 주체성과 권한 관리 측면에서는 Personal Avatars(개인 아바타) 프로그램이 핵심적인 역할을 수행한다. 제작자가 짧은 영상을 통해 자신의 목소리와 외형 사용을 공식적으로 승인하면, 이를 기반으로 생성된 콘텐츠 내에서 해당 인물의 정체성을 유지하며 영상을 제작하는 방식이다. 이는 기업용 AI 비디오 및 아바타 시장을 선점하고 있는 영국 AI 유니콘 기업 Synthesia(신테시아)와 정면으로 경쟁하는 구도를 형성한다. 기업이 경영진의 메시지 영상이나 브랜드 대변인 콘텐츠를 제작할 때, 단순한 생성 능력을 넘어 명확한 동의 모델 기반의 권한 관리를 시작점으로 삼았다는 점이 특징이다. 다만 실제 기업 현장에 도입하기 위해서는 기술적 동의 체계를 넘어, 계약 조건과 권리 관리 정책이 AI 생성물의 소유권과 사용 범위를 포괄하도록 세부적으로 확장되어야 한다.