이미지 생성부터 영상 편집까지, 구글의 초고속 미디어 모델 2종 공개

Nano Banana 2 Lite와 Gemini Omni Flash의 주요 스펙

구글은 미디어 생성 워크플로우의 병목을 해결하기 위해 초고속 이미지 생성 모델과 영상 생성 및 편집 모델을 공개했다. 이번 발표의 핵심은 이미지 생성의 속도와 비용 효율을 극대화한 Nano Banana 2 Lite와 멀티모달 추론 기반의 영상 모델인 Gemini Omni Flash의 출시로 요약된다.

Nano Banana 2 Lite의 정식 모델명은 `gemini-3.1-flash-lite-image`다. 이 모델은 속도와 비용이 중요한 개발자 파이프라인과 빠른 아이디어 구체화 단계에 최적화되었으며, 기존 `gemini-2.5-flash-image` 모델을 대체한다. 처리 속도를 높이면서도 프롬프트 준수 능력, 캐릭터 일관성, 이미지 내 텍스트 렌더링 성능을 유지했다.

함께 공개된 Gemini Omni Flash(`gemini-omni-flash-preview`)는 텍스트, 이미지, 비디오 조합의 입력을 네이티브하게 지원하며, 구글의 멀티모달 추론 기술을 영상 생성과 편집에 결합했다. 개발자는 Gemini API와 Google AI Studio를 통해 고품질 영상 생성 및 대화형 편집 기능을 서비스에 구현할 수 있다.

Nano Banana 2 Lite는 AI Mode in Search, Gemini app, NotebookLM, Google Photos, Stitch, Google Flow, Google Ads 등 구글의 주요 소비자 서비스에 적용된다. 모델의 전체 기능 목록과 통합 방법은 공식 개발자 문서 https://ai.google.dev/docs에서 확인할 수 있다.

모델 체이닝과 Interactions API를 통한 영상 편집

구글은 Nano Banana 2 Lite로 생성한 정적 이미지를 Gemini Omni Flash의 입력값으로 전달해 영상으로 변환하는 모델 체이닝 구조를 구현했다. 개발자는 고속 이미지 생성 모델로 시각적 초안을 잡고, 이 결과물을 영상 모델의 참조 이미지로 넘겨 고품질 애니메이션으로 변환하는 파이프라인을 구축할 수 있다.

대화형 영상 수정에는 Interactions API가 사용된다. 이 API는 사용자와 AI 사이의 세션 기록과 문맥을 유지하여, 이전 수정 사항을 기억한 상태에서 최대 3단계까지 순차적 편집을 수행하는 멀티턴 경험을 제공한다. 사용자가 영상의 특정 부분을 수정 요청하면 API가 이전 문맥을 참조해 일관성 있는 변경 사항을 반영한다.

생성된 미디어의 신뢰성 확보를 위해 SynthID 워터마킹 기술을 적용했다. 사람이 보기에는 보이지 않지만 기계는 식별할 수 있는 고유 표식을 데이터에 심어, Gemini 앱, Chrome 내 Gemini, 구글 검색을 통해 AI 생성 여부를 즉시 확인할 수 있다. 구글의 보안 인프라는 이미지와 영상의 생성 및 편집 경로를 추적해 식별 기준을 제공한다.

Anywhere부터 e-커머스까지의 실무 적용 사례

Anywhere 앱은 사용자가 셀카를 업로드하면 Nano Banana 2 Lite가 랜드마크 배경을 생성하고, 이를 Omni Flash가 애니메이션 클립으로 전환하는 이미지-투-비디오(image-to-video) 기능을 구현했다. 사용자는 사진 한 장으로 세계 곳곳의 풍경 속에 녹아든 자신의 모습을 영상으로 확인할 수 있다.

Space Lift 앱은 방 사진을 업로드하면 Nano Banana 2 Lite가 디자인 컨셉 이미지를 생성하고, 사용자가 선택한 룩을 Omni Flash가 시네마틱 쇼케이스 영상으로 변환한다. 정적인 이미지 생성과 동적인 영상 구현을 하나의 워크플로우로 묶어 디자인 검토 단계의 시각적 합의 과정을 단축했다.

Omni product studio 앱은 Nano Banana 2 Lite로 생성한 제품 이미지를 Gemini Omni가 e-커머스용 시네마틱 영상으로 변환한다. 고속 이미지 모델로 초안을 잡고 영상 모델로 완성하는 체이닝 구조를 통해, 정적 이미지 기반의 커머스 환경을 동적인 영상 기반으로 전환하는 공정을 단축했다.

초당 0.10달러의 비용 체계와 개발 환경 통합

구글은 Gemini Omni Flash의 비디오 출력 비용을 초당 0.10달러로 책정했다. 이는 영상 생성 AI 모델인 Veo 3.1 Fast와 동일한 가격 체계로, 상업적 영상 콘텐츠를 대량 생산하는 기업의 비용 예측 가능성을 높였다.

해당 모델은 퍼블릭 프리뷰 형태로 제공되어 개발자가 정식 출시 전 기능을 시험하고 피드백을 줄 수 있다. 개발자는 별도의 인프라 구축 없이 구글의 기존 개발 환경에서 영상 생성 기능을 구현하고 테스트할 수 있으며, 이를 통해 영상 제작 파이프라인의 자동화와 제작 단가 절감이 가능하다.

Google AI Studio는 브라우저 기반의 프로토타이핑 도구로, API 키 발급부터 프롬프트 최적화까지 한 곳에서 처리한다. 이를 통해 서로 다른 모델을 조합할 때 발생하는 데이터 전송 지연이나 인증 체계 파편화 문제를 해결했다. 개발자는 단일 API 환경에서 이미지 생성부터 영상 애니메이션화까지의 전 과정을 관리하며 운영 복잡도를 낮출 수 있다. 모델의 구체적인 역량과 지역별 제한 사항은 공식 페이지 Gemini Omni에서 확인할 수 있다.

이미지를 영상으로 변환하기 위해 서로 다른 도구를 옮겨 다니며 겪었던 작업의 단절이 하나의 통합된 워크플로우로 해결되었다. Interactions API를 활용해 세션 기록을 유지하며 최대 3단계까지 영상을 수정하는 구조는 단순 생성을 넘어 정밀한 제어를 가능하게 한다. 결국 서비스 도입의 성패는 초당 0.10달러라는 구체적인 비용 기준이 비즈니스 모델의 경제성과 부합하는지에 달려 있다. 공식 개발자 문서에서 제공하는 비용 산정 기준과 통합 가이드를 통해 실제 구현 가능성을 최종 확인하면 된다.