영상 생성과 로봇 제어를 하나로, 엔비디아 Cosmos 3 공개

옴니-모델 Cosmos 3, Nano와 Large 두 가지 크기로 출시

로봇 팔 하나를 움직이게 하려고 개발팀이 영상 생성 모델과 제어 모델을 각각 따로 구축해 연결하는 데만 수주를 허비하는 일이 흔했다. 영상 모델이 만든 가상 환경을 제어 모델이 이해하도록 데이터를 변환하고 맞추는 과정에서 예상치 못한 오류가 터지기 일쑤였다. 엔비디아가 공개한 Cosmos 3는 이런 번거로운 과정을 하나로 합친 옴니-모델(여러 기능을 한데 모은 통합 모델)이다. 물리 AI의 추론과 행동을 동시에 처리하도록 설계되었으며, 가벼운 배포를 위한 Nano와 고성능 작업을 위한 Large 두 가지 크기로 제공한다.

이 모델 하나로 텍스트와 이미지, 비디오, 오디오는 물론 로봇의 구체적인 움직임 값인 액션(Action) 데이터까지 모두 처리한다. 단순히 영상을 만드는 세계 생성(Predict)이나 특정 조건을 반영해 영상을 바꾸는 제어 생성(Transfer)에 그치지 않는다. 현재 장면에서 무엇이 일어나고 있는지 파악하는 장면 이해(Reason)와 로봇이 목표를 달성하기 위해 어떤 순서로 움직여야 할지 결정하는 정책 생성(Policy) 기능까지 한 모델 안에서 작동한다. 시각적인 결과물을 내놓는 것과 그 결과물에 기반해 행동을 결정하는 과정이 분리되지 않고 하나로 연결된 셈이다.

구조적으로는 추론을 맡는 AR(자기회귀, 다음 데이터를 예측하며 논리를 쌓는 방식) 토큰과 생성을 맡는 DM(디퓨전, 무작위 노이즈를 제거하며 이미지를 만드는 방식) 토큰이 함께 움직인다. AR 토큰이 상황을 분석해 다음 단계의 논리를 세우면, DM 토큰이 이를 바탕으로 정교한 물리적 영상을 그려낸다. 이 두 토큰이 조인트 어텐션(서로의 정보를 실시간으로 주고받는 연결 방식)으로 상호작용하며, 모델을 갈아 끼울 필요 없이 상황 판단과 영상 생성을 동시에 수행한다. 덕분에 모델 하나가 시각 언어 모델(VLM, 이미지를 보고 텍스트로 설명하는 모델)이었다가 순식간에 비디오 생성기로 변신하며 물리적 인과관계를 계산한다.

개발자는 이제 복잡하게 얽혀 있던 여러 개의 모델 파이프라인을 걷어내고 단일 모델만 관리하면 된다. 물리 AI를 학습시키고 실제 기기에 배포하는 과정에서 발생하는 데이터 병목 현상과 아키텍처 수정 시간을 획기적으로 줄일 수 있다. 모델 하나가 눈으로 보고 뇌로 생각하며 손으로 움직이는 과정을 모두 처리하면서, 자율주행 시뮬레이션이나 창고 로봇 제어 같은 물리적 환경의 학습 효율이 극대화된다. 단일 모델 도입으로 얻는 가장 큰 이득은 복잡한 연결 고리를 없애고 물리 AI의 반응 속도와 정확도를 동시에 높이는 것이다.

AR과 DM의 결합, MoT(Mixture-of-Transformers) 작동

로봇이나 자율주행 AI를 개발할 때 가장 큰 비용은 모델을 하나하나 따로 만들고 이를 이어 붙이는 설계 작업에서 발생한다. 영상 생성 모델과 제어 모델을 각각 구축해 연결하면 데이터가 오가는 통로가 복잡해지고 모델 간의 정보 불일치로 인한 성능 손실이 필연적으로 생긴다. Cosmos 3는 이 번거로운 과정을 없애기 위해 MoT(Mixture-of-Transformers, 트랜스포머 혼합) 아키텍처를 도입했다. 추론하는 뇌와 그리는 손이 하나의 신경망 안에서 함께 움직이는 옴니-모델 구조를 택해 파이프라인의 단계를 하나로 합쳤다.

입력 단계에서는 데이터 성격에 맞는 전용 인코더가 각각의 정보를 처리한다. 시각 정보를 분석해 이해하는 ViT(Vision Transformer)와 시각 및 오디오 데이터를 생성하기 위해 압축하는 VAE(Variational Autoencoder), 그리고 로봇의 관절 각도나 이동 경로 같은 액션 데이터를 처리하는 도메인 인식 벡터가 동시에 작동한다. 이렇게 처리된 정보들은 하나의 공통된 표현 공간으로 투영된다. 텍스트, 이미지, 액션이라는 서로 다른 형식의 데이터를 모델이 한 번에 처리할 수 있는 공통 언어로 변환하는 과정이다.

모델 내부로 들어온 입력 시퀀스는 성격에 따라 두 갈래의 서브시퀀스로 나뉘어 처리된다. 먼저 AR(Autoregressive, 자기회귀) 서브시퀀스는 다음에 올 토큰을 순차적으로 예측하며 상황을 논리적으로 이해하고 추론하는 뇌의 역할을 맡는다. 이와 동시에 DM(Diffusion, 디퓨전) 서브시퀀스는 무작위 노이즈에서 시작해 이를 반복적으로 제거하며 구체적인 영상을 그려내는 손의 역할을 수행한다. 생각하는 과정과 그리는 과정이 각각 독립적인 파라미터 세트를 가지면서도 하나의 모델 안에서 병렬적으로 작동하는 구조다.

이 두 서브시퀀스는 조인트 어텐션(Joint Attention)이라는 연결 고리를 통해 실시간으로 상호작용하며 정보를 교환한다. AR이 현재 상황을 분석해 컵을 왼쪽으로 옮겨야 한다고 추론하면, DM이 그 추론 결과에 맞춰 물리적으로 정확한 움직임이 담긴 영상을 생성하는 식이다. 덕분에 모델 구조를 전혀 수정하지 않고도 시각 언어 모델(VLM)에서 비디오 생성기로, 혹은 로봇의 행동 지침을 결정하는 정책 모델로 즉시 역할을 전환할 수 있다. 단일 모델 도입으로 개발자는 복잡한 파이프라인 관리 부담을 덜고 물리 AI의 학습과 배포 효율을 극대화할 수 있다.

개별 모델의 파편화를 끝낸 '단일 포워드 패스'의 효율성

로봇이나 자율주행 AI를 개발할 때, 영상 생성 모델과 제어 모델을 각각 따로 구축하고 연결하는 과정이 얼마나 번거로울까? 기존 방식에서는 기능별로 특화된 모델을 여러 개 준비해 이어 붙여야 했다. 세계의 변화를 예측하는 Cosmos Predict, 특정 조건에 맞게 영상을 만드는 Cosmos Transfer, 장면의 의미를 파악하는 Cosmos Reason, 그리고 구체적인 행동 지침을 생성하는 Cosmos Policy 모델을 각각 별도로 운용했다. 시각 정보를 처리하는 모델이 내놓은 결과물을 다음 모델의 입력값으로 넣어주고, 그 결과가 다시 다음 단계로 이어지는 일종의 릴레이 경주 방식이었다. 개발자는 각 모델의 출력 형식을 맞추고 데이터가 누락 없이 흐르도록 파이프라인을 설계하는 데 많은 시간을 쏟아야 했다.

Cosmos 3는 이런 파편화된 구조를 단일 포워드 패스(Unified Forward Pass)라는 방식으로 통합했다. 포워드 패스는 입력 데이터가 모델의 신경망 층을 순차적으로 통과해 최종 결과값으로 도출되는 한 번의 연산 과정을 말한다. 이제는 기능마다 모델을 갈아끼울 필요 없이, 하나의 모델 내에서 모든 모달리티를 한꺼번에 처리한다. 텍스트나 이미지 같은 입력값이 들어오면 모델이 내부적으로 추론과 생성을 동시에 수행해 즉각적인 결과물을 내놓는다. 여러 명의 전문가에게 서류를 돌려 결재받던 복잡한 행정 절차를, 모든 권한을 가진 한 명의 결정권자가 즉시 처리하는 효율적인 체계로 바꾼 셈이다.

개발자가 현장에서 느끼는 실질적인 이점은 아키텍처의 변경 없이 모델의 역할을 즉시 전환할 수 있다는 점이다. 비디오를 만들어내는 생성기 역할을 수행하다가도, 설정 변경만으로 로봇의 움직임을 결정하는 정책 모델로 바로 바꿀 수 있다. 모델의 뼈대를 새로 설계하거나 새로운 모듈을 추가해 물리적으로 연결하는 수고가 사라졌다. 단일 모델이 추론과 행동을 모두 처리하기 때문에 물리 AI를 학습시키고 실제 기기에 배포하는 과정에서 발생하는 시스템 복잡도가 획기적으로 낮아진다. 이는 단순히 개발 속도가 빨라지는 것을 넘어, 모델 사이에서 데이터가 이동하며 발생하는 지연 시간과 정보 손실을 차단해 더 정교하고 민첩한 로봇 제어를 가능하게 만든다.

합성 데이터셋(SDG)과 Cosmos 프레임워크가 가져올 변화

물리 AI 개발 속도는 이제 데이터를 모으는 시간이 아니라 모델을 어떻게 활용하느냐의 싸움이 됐다. 엔비디아는 이번에 물리 AI 학습과 평가에 즉시 투입할 수 있는 합성 데이터 생성 기술인 SDG(Synthetic Data Generation) 데이터셋을 허깅페이스(Hugging Face)에 공개했다. 실제 로봇을 수천 번 움직여 데이터를 쌓거나 사고 시나리오를 직접 연출하는 대신, 가상 세계에서 만들어낸 정교한 데이터를 통해 물리 법칙을 이해하는 거대 모델인 세계 기초 모델(World Foundation Models)을 학습시킬 수 있다. 현장 데이터를 수집하고 정제하는 데 드는 수개월의 시간을 며칠로 압축해 학습 효율을 극대화했다.

모델만 제공하는 수준을 넘어 이를 효율적으로 돌릴 공장 전체를 함께 패키징했다. 코스모스 프레임워크(Cosmos Framework)는 세계 기초 모델의 학습부터 실제 서비스 배포까지 전 과정을 관리하는 엔드투엔드 도구 모음이다. 여기에는 추론과 사전 학습된 모델을 특정 목적에 맞게 추가 학습시키는 포스트 트레이닝(Post-training) 스크립트뿐만 아니라 개발용 에이전트 스킬까지 포함되어 있다. 에이전트 스킬은 개발 환경의 의존성을 설치하고 요구 사항을 검증하는 작업을 돕는다. 또한 저장소 구조와 예제를 파악하거나 최적의 프롬프트를 작성하고, 추론 스크립트를 실행하는 과정 전반을 보조한다. 개발자가 인프라 설정이라는 단순 반복 작업에 쏟는 에너지를 줄이고 모델의 성능을 최적화하는 핵심 로직에만 집중하게 만든 구성이다.

실제 구현 단계에서의 기술적 진입 장벽은 더 낮아졌다. 허깅페이스 디퓨저스(Hugging Face Diffusers) 라이브러리에 `Cosmos3OmniPipeline`이 통합되어, 복잡한 설정 없이 몇 줄의 코드로 세계 생성 파이프라인을 실행할 수 있다.

python

from diffusers import Cosmos3OmniPipeline

기존에는 새로운 모델을 도입할 때마다 전용 라이브러리를 설치하고 데이터 입력 형식을 일일이 맞추는 작업에 많은 시간이 소요됐다. 이제는 전 세계 개발자들에게 익숙한 표준 라이브러리 안에서 코스모스 3를 호출해 기존의 개발 워크플로우에 즉시 연결할 수 있다. 이러한 도구 체인의 통합은 단순한 편의 제공을 넘어, 물리 AI 모델의 실험과 배포 주기를 획기적으로 앞당겨 시장 진입 속도를 높이는 실질적인 동력이 된다.

한국 로보틱스·자율주행 실무자가 주목할 지점

로봇 팔 하나를 움직이려 해도 영상 생성 모델과 제어 모델을 각각 따로 구축해 이어 붙여야 했다. 상황을 예측하는 모델이 만든 결과물을 제어 모델이 이해할 수 있게 변환하는 과정에서 데이터 손실이 발생하거나 처리 속도가 느려지는 문제가 잦았다. 이전에는 예측, 제어, 이해, 정책 생성 모델을 각각 별도로 운용하며 데이터의 정합성을 맞추는 데 더 많은 시간을 썼다. Cosmos 3는 이 분리된 과정을 하나로 합친 옴니-모델이다. 추론과 생성을 하나의 모델에서 처리하므로 개발자가 여러 모델을 관리하며 연결 고리를 맞추던 번거로움이 사라졌다. 이제는 단 한 번의 연산 과정인 통합 포워드 패스로 상황을 이해하고 그에 맞는 행동을 생성한다. 복잡한 파이프라인이 단순해지면서 물리 AI의 전체적인 개발 주기가 짧아진다.

모델 내부에서는 추론을 담당하는 AR 토큰과 생성을 담당하는 DM 토큰이 실시간으로 소통한다. AR은 다음에 올 토큰을 예측하며 논리적인 순서를 짜는 역할을 하고, DM은 반복적으로 노이즈를 제거해 고화질 영상을 그려낸다. 이 두 토큰이 조인트 어텐션이라는 공유 통로를 통해 서로의 정보를 실시간으로 참조하며 상호작용한다. 덕분에 모델의 뼈대를 바꾸지 않고도 비디오 생성기에서 로봇 정책 모델로 즉시 역할을 전환할 수 있다. 추론과 생성이 한 몸처럼 움직이기에 물리 법칙이 적용된 정교한 시뮬레이션과 제어가 동시에 가능하다.

국내 로보틱스 실무자들은 로봇이 물건을 집어 옮기는 픽앤플레이스나 자율주행의 롱테일 시나리오 구현에 이 모델을 활용할 수 있다. 롱테일 시나리오는 도로 위에서 아주 드물게 발생하지만 사고 위험이 큰 돌발 상황을 의미한다. 실제 도로에서 수집하기 어려운 이런 위험 데이터를 가상으로 생성해 학습시키면 자율주행의 안전성을 획기적으로 높일 수 있다. 특히 창고 내 안전 사고 데이터를 생성해 로봇의 회피 기동을 학습시키는 작업에 최적화되어 있다. 특정 로봇의 관절 구조나 국내 공장 내부의 특수한 환경에 맞춰 모델을 최적화하는 포스트 트레이닝 가이드도 함께 제공된다. 배포는 NIM(엔비디아 추론 마이크로서비스)을 통해 컨테이너 기반의 마이크로서비스 형태로 빠르게 구축할 수 있어 엣지 컴퓨팅 환경에서도 효율적인 운용이 가능하다. 상세 데이터셋과 모델은 Hugging Face에서 확인할 수 있다.

그동안 로봇이나 자율주행 AI를 개발하려면 영상을 만드는 모델과 동작을 제어하는 모델을 따로 구축해 연결하는 번거로운 과정을 거쳐야 했다. 코스모스 3는 추론과 생성을 한곳에서 처리하는 옴니 모델로 이 구조를 통합했다. 다음 수를 예측하는 AR 토큰과 영상을 그려내는 DM 토큰이 조인트 어텐션으로 긴밀하게 상호작용하며 하나의 뇌처럼 작동한다.

이제 관건은 단일 모델 도입으로 파이프라인의 복잡도를 얼마나 줄이고 물리 AI의 학습과 배포 효율을 얼마나 높일 수 있느냐다. 모델의 통합이 곧 물리 AI의 실용화 속도를 결정한다.