화면 속 인물의 옷 색깔이 갑자기 바뀌거나 배경이 일렁이는 현상은 현재 비디오 생성 AI 사용자들이 겪는 고질적인 문제다. 프레임 사이의 끊김이나 갑작스러운 형태 변화는 생성 모델들이 가진 명백한 한계로 지적된다. 개발자들은 이를 해결하기 위해 더 많은 연산 자원을 투입하고 있지만, 시간적 일관성을 완벽히 잡는 것은 여전히 어려운 과제다.

STARFlow-V의 기술적 구성과 데이터

STARFlow-V는 노멀라이징 플로우(연속적인 데이터의 확률 분포를 학습하는 생성 모델)를 비디오 영역으로 확장해 구현했다. 이 모델은 시공간 잠재 공간(시간과 공간 정보를 압축해 담은 가상 공간)에서 작동하며 글로벌-로컬 아키텍처를 채택했다. 인과적 의존성은 글로벌 잠재 공간으로 제한하고 프레임 내부의 풍부한 상호작용은 로컬 영역에서 보존하는 방식이다.

단순한 생성 방식 대신 연구팀은 플로우 스코어 매칭(데이터의 밀도 기울기를 학습해 생성 품질을 높이는 기법)을 도입해 품질을 끌어올렸다. 이를 통해 가벼운 인과적 디노이저(노이즈를 제거해 화질을 개선하는 도구)를 갖춰 자기회귀(이전 단계의 결과물을 다음 단계의 입력으로 사용하는 방식) 생성 시 비디오의 일관성을 높였다. 샘플링 효율을 위해 비디오 인식 야코비 반복법(복잡한 계산을 여러 번의 단순한 반복으로 나누어 처리하는 수치 해석 기법)을 적용했으며, 이는 인과 관계를 깨뜨리지 않으면서 내부 업데이트를 병렬화하여 처리 속도를 높인다.

가역적 구조를 채택한 결과, 단일 모델만으로 텍스트-비디오(Text-to-Video), 이미지-비디오(Image-to-Video), 비디오-비디오(Video-to-Video)라는 세 가지 핵심 태스크를 모두 수행할 수 있게 됐다. 이는 고해상도 이미지 합성 모델인 STARFlow(트랜스포머 자기회귀 플로우를 결합한 확장 가능 생성 모델)의 성과를 비디오 영역으로 전이시킨 결과다.

디퓨전 독점 지형의 균열과 효율성 비교

그동안 비디오 생성 시장은 데이터에 노이즈를 섞었다가 다시 제거하는 디퓨전 모델이 사실상 독점해 왔다. 디퓨전 모델은 고품질 결과물을 내놓지만 샘플링 과정이 반복적이라 연산 비용이 매우 높다는 단점이 있다. 특히 자기회귀 방식으로 비디오를 생성할 때 시간이 흐를수록 오류가 누적되어 영상이 뭉개지는 현상이 빈번했다.

STARFlow-V는 데이터가 발생할 확률을 직접 계산하는 엔드-투-엔드 가능도 기반 모델로서 학습 방식부터 차별점을 둔다. 글로벌-로컬 구조는 디퓨전 모델의 고질적 문제인 시간적 오류 누적을 억제하는 포석이 된다. 결과적으로 디퓨전 기반 베이스라인 모델과 비교했을 때 실용적인 샘플링 처리량과 강력한 시각적 충실도를 동시에 확보했다.

기존에는 텍스트 기반 생성과 이미지 기반 생성 모델을 따로 구축하거나 복잡한 어댑터를 붙여야 했지만, STARFlow-V는 입력 소스에 관계없이 동일한 가역 경로를 통해 비디오를 생성한다. 이러한 구조적 특성은 개발자에게 모델의 범용성이라는 실질적인 이득을 제공한다. 이는 파이프라인을 단순화하고 모델 유지보수 비용을 낮추는 비즈니스 임팩트로 이어진다.

효율성과 일관성을 동시에 확보한 이번 시도는 AI가 물리 세계의 법칙을 학습하는 월드 모델(세상의 작동 원리를 시뮬레이션하는 AI 모델)로 진화하는 핵심 경로가 될 전망이다.