Google가 텍스트, 이미지, 비디오, 오디오 등 모든 형태의 입력을 단일한 결과물로 통합 생성하는 Gemini Omni를 공개했다. 이 모델은 단순한 영상 생성을 넘어, 이전의 편집 내역을 유지하며 일관된 장면을 구축하는 연속적 편집 능력을 핵심으로 한다. 특히 물리 법칙에 대한 직관적 이해와 Gemini의 지식 베이스를 결합해, 단순한 포토리얼리즘을 넘어 의미 있는 스토리텔링을 구현하는 데 집중했다.

인간과 자동화 시스템이 참여한 레드팀 테스트와 윤리 검토를 거친 Gemini Omni Flash 버전은 내부 안전 및 보안 팀과의 협력을 통해 개발되었다. 생성 및 편집된 모든 콘텐츠에는 식별 불가능한 SynthID(구글의 AI 생성 콘텐츠 식별 기술) 디지털 워터마크와 C2PA(콘텐츠 출처 및 진위 확인을 위한 개방형 표준) 콘텐츠 자격 증명이 포함된다. 해당 기능은 Gemini 앱, Google Flow, YouTube를 통해 제공되며, 구글 AI 구독 서비스의 티어와 지역에 따라 기능 제공 범위가 달라진다.

Gemini Omni Flash의 멀티모달 입력 및 출력 사양

Gemini Omni Flash는 텍스트, 이미지, 비디오, 오디오라는 네 가지 포맷을 교차 입력하여 하나의 응집된 영상 결과물로 출력한다. 사용자가 제공한 스케치를 기반으로 물리적 실체가 있는 비행 기계를 생성하거나, 특정 영상의 움직임을 추출해 다른 이미지의 유체 질감에 입히는 작업이 가능하다. 주목할 점은 단순히 여러 포맷을 인식하는 수준을 넘어, 입력된 서로 다른 모달리티 간의 상관관계를 분석해 하나의 일관된 결과물로 통합한다는 점이다. 반면 기존의 멀티모달 모델들이 입력값에 따른 단발성 결과 생성에 그쳤다면, 이 모델은 입력 데이터 간의 유기적 결합을 통한 정밀한 제어에 집중한다. 예를 들어 손바닥 위에 이미지 기반의 3D 건축 구조물이 세워지며 프리즘 빛을 반사하는 장면처럼, 시각적 요소와 물리적 상호작용을 동시에 처리한다.

이전 편집 내용을 누적하여 반영하는 연속적 편집 기능이 이 모델의 핵심이다. 한 번의 생성으로 끝나는 것이 아니라, 앞선 편집 단계에서 구축된 장면의 일관성을 유지하며 다음 수정을 가하는 방식이다. 거울을 만지는 인물의 설정을 유지한 채 거울의 질감만 액체처럼 바꾸거나, 인물을 선화나 인형으로 변환해도 배경과 환경의 구조적 디테일은 그대로 보존된다. 그러나 이러한 연속성은 단순한 프레임 유지 기술이 아니라 물리 법칙과 역사, 과학적 지식, 그리고 서사적 논리에 대한 이해가 전제되어야 가능하다. 결과적으로 사용자는 복잡한 프롬프트를 반복 입력하지 않고도 장면의 정체성을 유지하며 세부 요소를 점진적으로 수정할 수 있는 제어권을 갖는다.

Gemini 앱과 Google Flow(구글의 AI 기반 워크플로우 도구), 그리고 YouTube로 실제 적용 환경이 확장되어 창작자의 작업 흐름에 통합된다. 창작자가 YouTube 내에서 더 빠르게 영상을 발견하고 제작하는 경로를 제공하며, Google Flow를 통해 AI 크리에이티브 스튜디오의 기능을 구현한다. 다만 고품질 영상 생성에 따른 오남용 가능성을 제어하기 위해 강력한 인증 체계를 도입했다. 생성되거나 편집된 모든 콘텐츠에는 육안으로 식별 불가능한 SynthID 디지털 워터마크가 삽입되며, C2PA(Content Provenance and Authenticity, 콘텐츠 출처 및 진위 확인 표준) Content Credentials 표준이 적용된다. 이는 콘텐츠의 생성 경로와 수정 이력을 추적 가능하게 만들어 투명성을 확보하려는 조치다. 주목할 점은 이러한 검증 도구가 Gemini 앱뿐만 아니라 향후 크롬 브라우저와 구글 검색 서비스까지 통합되어 사용자가 웹상에서 콘텐츠의 진위 여부를 즉각 확인할 수 있게 설계되었다는 사실이다.

물리 법칙 이해와 추론 기반의 영상 편집 메커니즘

거울을 터치하는 순간 표면이 액체처럼 물결치거나 인체의 팔이 반사 재질로 변하는 연출은 단순한 픽셀 변환의 결과가 아니다. Gemini Omni는 물리 법칙에 대한 직관적 이해를 바탕으로 영상 내 객체 간의 상호작용과 논리적 일관성을 유지한다. 기존의 영상 생성 모델들이 이전 프레임과 다음 프레임 사이의 시각적 유사성에 의존해 픽셀을 채웠다면, 이 모델은 객체의 물리적 성질과 외부 자극에 따른 변화의 인과관계를 먼저 추론한다. 반면 음악의 리듬에 맞춰 아파트 단지의 조명이 동기화되어 켜지는 기능은 시각 데이터와 오디오 데이터 사이의 시간적 상관관계를 물리적 공간 내에서 구현한 사례다. 이는 모델이 단순히 소리를 듣고 영상을 만드는 것이 아니라, 소리라는 신호가 공간 내의 빛이라는 물리적 요소로 치환되는 과정을 계산하고 있음을 의미한다.

영상 내 서사적 완성도는 과학적 사실에 기반한 지식 생성 능력에 의해 결정된다. 단백질 접힘(Protein folding) 과정을 클레이 애니메이션으로 구현하는 작업은 단순한 스타일 변환이 아니라 생물학적 지식과 스톱모션이라는 예술적 형식을 결합한 결과다. 주목할 점은 모델이 역사, 과학, 문화적 맥락을 결합하여 단순한 실사 구현을 넘어 의미 있는 스토리텔링을 구축한다는 점이다. 예를 들어 뇌의 해마 작동 원리를 스큐어모피즘(Skeuomorphism, 실제 사물의 외형을 모방한 디자인) 방식의 스톱모션으로 설명하는 과정에서 모델은 해부학적 구조와 시각적 은유를 동시에 처리한다. 그러나 이러한 정교함은 단순히 학습 데이터의 양을 늘린 것이 아니라, Gemini의 추론 능력을 생성 공정에 직접 통합함으로써 물리적 개연성을 확보한 결과다.

프레임 단위의 수치적 제어에서 제어권의 정밀도가 구체적으로 드러난다. 24FPS(초당 프레임 수) 기준 아이템당 9프레임이라는 매우 빠른 전환 속도를 유지하면서도 각 객체의 정체성과 하단 자막의 일관성을 보존하는 정밀 제어가 가능하다. 텍스트 애니메이션의 페이싱을 특정 리듬에 맞춰 조절하는 기능 역시 단순한 자동화가 아니라 프레임 단위의 타이밍 계산과 시각적 리듬의 동기화를 통해 구현된다. 또한 특정 영상(`<video>`)에서 추출한 움직임의 궤적을 이미지(`<image>`) 속 캐릭터에 그대로 이식하는 모션 전이 기능은 물리적 뼈대와 움직임의 데이터를 분리해 인식하는 메커니즘을 기반으로 한다. 이는 사용자가 영상의 전체적인 구도와 스타일을 유지하면서도 특정 동작만을 정밀하게 수정하거나, 서로 다른 매체 간의 물리적 특성을 결합할 수 있는 고도의 제어권을 제공한다.

AI 크리에이티브 스튜디오의 통합과 실무 워크플로우 변화

YouTube 내에서 콘텐츠를 발견하고 시청한 뒤 곧바로 생성으로 이어지는 프로세스가 단축된다. 기존의 영상 제작 공정은 영감을 얻는 시청 단계와 실제 제작을 위한 툴 선택, 그리고 최종 업로드까지 각 단계가 파편화되어 있었다. 반면 이번 통합 환경에서는 시청 경험이 즉각적인 제작 단계로 연결되는 구조를 취한다. 이는 단순한 기능적 편의를 넘어 플랫폼 내에서 소비와 생산의 경계를 허무는 워크플로우의 근본적인 변화다. 제작자는 이제 외부 툴로 이동하는 시간 낭비 없이 플랫폼 내부에서 아이디어를 즉시 시각화하고 배포하는 초단축 사이클을 갖게 된다.

실무자가 체감하는 구체적인 변화는 생성 제어권의 확장이다. 텍스트 프롬프트의 확률적 결과에 의존하던 기존 방식과 달리, 사용자의 드로잉을 가이드로 삼아 실사 영상으로 변환하는 기능이 핵심이다. 스케치에 담긴 움직임의 궤적과 구도를 유지하면서 결과물만 포토릴리스틱(photorealistic)한 푸티지로 출력하는 방식이다. 주목할 점은 최종 영상에서 가이드가 된 드로잉은 완전히 제거되고 오직 실사 결과물만 남는다는 점이다. 이는 AI가 단순히 영상을 무작위로 생성하는 단계를 넘어, 인간이 의도한 연출을 정교하게 구현하는 디렉팅 도구로 전환되었음을 의미한다. 단순 생성에서 정교한 제어로 패러다임이 이동하며 영상 제작의 진입장벽은 낮아지는 반면, 연출자의 의도를 반영하는 디렉팅 역량의 중요성은 더욱 커진다.

AI 크리에이티브 스튜디오라는 통합 환경 내에서 이러한 기능들이 구축된다. 제작자는 동일한 씬의 일관성을 유지하며 반복적인 편집 작업을 수행함으로써 전체적인 생산성을 강화할 수 있다. 다만 서비스 제공 방식은 철저히 상업적 티어(tier, 등급) 구조를 따른다. 구글 AI 구독 여부에 따라 사용할 수 있는 기능의 범위가 결정되며, 지역별로 기능 제공 여부에 차등을 두는 정책을 취한다. 이는 고성능 멀티모달 모델의 막대한 연산 비용을 구독 모델로 회수하는 동시에, 국가별 법적 규제와 인프라 수준에 맞춰 기능을 순차적으로 배포하려는 전략적 선택이다. 결과적으로 크리에이터는 구독 등급과 지역이라는 물리적 제약 하에서 최적의 워크플로우를 설계해야 하는 환경에 놓이게 된다.