구글, 기업용 비디오 제작을 위한 Gemini Omni Flash API 출시

기업용 교육 영상이나 제품 설명 영상을 제작할 때 작은 수정 사항 하나로 인해 전체를 다시 촬영하거나 편집해야 하는 번거로움은 실무자의 일상이다. 구글이 I/O 2026에서 공개한 Gemini Omni Flash API를 개발자와 기업 고객 대상으로 배포하며 텍스트, 이미지, 비디오 등 모든 입력값으로 콘텐츠를 생성하는 기능을 제공한다. 기존의 비디오 제작 방식이 각 단계마다 서로 다른 도구를 사용해 파편화되었다면, 이제는 단일 API로 처리한다.

Gemini Omni Flash는 구글이 새롭게 선보이는 Omni 패밀리 모델 중 첫 번째로 출시된 모델이다. 소비자 대상의 공개 과정을 거쳐 이제는 API 형태로 제공되어 기업의 실제 서비스 환경과 코드 베이스에 직접 통합할 수 있다. 개발자는 텍스트, 이미지, 비디오라는 서로 다른 모달리티를 하나의 입력창에서 처리함으로써 콘텐츠 생성 프로세스를 단순화하고 운영 단계를 줄인다.

보안과 윤리적 기준을 적용해 정지 사진과 오디오 클립을 결합하여 말하는 영상으로 만드는 립싱크 기능은 제공하지 않는다. 인물 사진 한 장과 음성 파일만으로 정교한 가짜 영상을 만드는 경로를 제한해 딥페이크 생성 가능성을 차단했다. 다만 실제 사람이 말하는 녹음본을 다른 언어로 번역하는 기능은 지원한다. 이를 통해 글로벌 교육 콘텐츠를 각 국가의 언어로 현지화하여 빠르게 배포할 수 있다.

대화형 편집과 상태 유지 인터페이스의 작동 원리

Gemini Omni Flash는 대화형 편집(Conversational Editing) 기능을 도입해 이미 완성된 영상 클립을 채팅만으로 수정한다. 마케터는 전체 영상을 처음부터 다시 생성하지 않고 제품 샷의 조명을 변경하거나 구도를 재설정하며, 인물의 의상을 바꾸는 등의 세부 사항을 즉각 반영해 재촬영 없이 영상을 수정할 수 있다.

이 기능은 구글의 interactions API(다회차 작업 전용 상태 유지 인터페이스)를 통해 작동한다. 이 API는 일반적인 오픈 채팅과 달리 이전 비디오와 참조 자료를 다음 턴(turn)으로 계속 전달하는 stateful 인터페이스를 제공한다. 각 작업 단계에서 이전의 비디오 데이터와 참조값이 유지되기에 편집 내용이 서로 충돌하지 않고 일관되게 누적된다. 사용자는 이전 결과물을 기반으로 명령어를 추가하며 영상을 수정한다.

개발자는 클립 생성 후 스타일을 변경하거나 특정 시점의 버전을 저장해 나중에 분기(branch)하는 체이닝 생성을 구현한다. 영상 생성, 수정, 스타일 변환을 단일 모델 내에서 처리함으로써 시스템 복잡도를 줄인다.

멀티모달 통합을 통한 제작 공정 단순화와 비용 구조

이러한 개별 클립의 정교한 수정 능력은 전체 제작 파이프라인의 통합으로 이어진다. Gemini Omni Flash는 텍스트, 이미지, 비디오 입력을 하나로 통합해 오디오가 동기화된 최종 클립을 생성한다. 기존에는 스크립트 작성을 위한 LLM, 텍스트-이미지 모델, 이미지-비디오 모델, 립싱크 도구, 음성 생성기를 각각 따로 연결하는 복잡한 파이프라인을 구축해야 했으나, 이제는 단일 모델이 이 모든 역할을 수행한다. 이를 통해 기업은 관리 포인트를 하나로 줄이고 동일한 데이터 처리 규칙을 적용한다.

비용은 720p 비디오 생성 기준 초당 0.10달러로 책정했다. 모델 카드에 명시된 현재 클립 길이 제한인 10초 분량의 영상을 생성하는 데 약 1달러가 소요된다. 기업은 이 수치를 바탕으로 기존의 다단계 AI 체인 구성 비용과 단일 모델 통합 비용을 비교해 운영 비용을 산출한다.

기업용 교육 영상의 작은 수정 사항이 재촬영이라는 막대한 비용으로 이어지던 비효율이 사라진다. Gemini Omni Flash API와 맥락을 유지하는 Interactions API를 결합하면 영상 클립을 즉시 수정하는 워크플로우가 가능해진다. 이제는 여러 AI 도구를 체인으로 엮던 기존 파이프라인을 단일 모델로 통합해 운영 리소스를 최소화하는 방향으로 설계 기준을 옮겨야 한다. 도구의 개수를 줄이고 단일 API로 통합하는 결정이 곧 영상 제작 공정의 실질적인 비용 효율을 결정한다.