추론부터 행동까지 하나로, 물리 AI 통합 모델 코스모스 3 공개한 엔비디아

로봇 학습 데이터 병목을 겨냥한 해법

물리적 AI를 구현하려면 추론, 예측, 제어 모델을 각각 개발해 연결해야 한다고 믿었다. NVIDIA는 물리적 추론, 세계 생성, 행동 생성을 단일 오픈 모델로 통합한 코스모스 3(Cosmos 3)를 공개하며 이 전제를 깬다. 로봇과 자율주행차, 스마트 공간이 현실 세계를 이해하고 다음 상황을 예측하며 특정 작업에 맞는 행동을 생성하도록 설계한 프론티어 모델이다.

연구의 상세 내용은 arXiv에 게시된 'Cosmos World Foundation Model Platform for Physical AI' 논문에 담겼다. 컴퓨터 비전(cs.CV)부터 인공지능(cs.AI), 머신러닝(cs.LG), 로보틱스(cs.RO) 분야를 아우르는 통합 연구로 구성된다. 로봇 공학의 모든 것을 구동하는 피지컬 AI(Physical AI) 개발 속도를 가속하는 것이 이 플랫폼의 핵심 목표다.

NVIDIA는 이미 차세대 AV(자율주행 차량) 개발 과정에 코스모스 월드 모델 개발 플랫폼을 투입했다. 물리적 AI 기반의 월드 파운데이션 모델과 엔드-투-엔드(End-to-End, 전 과정 통합) 프로세스를 활용해 차량의 주행 능력을 고도화한다. 여러 모델을 개별적으로 엮는 오케스트레이션 과정 없이 단일 모델로 행동 정책을 학습시키고 배포하는 효율을 확보한다.

실제 구현체는 개발자 접근성이 높은 파이썬(Python) 언어로 제공된다. cosmos-predict2.5, cosmos-transfer2.5, cosmos-reason2, cosmos-cookbook 등 주요 공개 저장소가 모두 파이썬으로 작성되었다. 오픈 모델 형태의 제공은 물리적 AI의 실무 적용 시점을 앞당기는 실질적인 도구가 된다.

로봇 학습 데이터 병목을 겨냥한 해법, 추가 쟁점

실제 도로에서 자율주행차를 수만 번 충돌시키며 학습시키는 일은 비용과 위험 부담이 너무 크다. 엔비디아는 이 문제를 해결하기 위해 초현실적인 합성 데이터(synthetic data)로 기계를 학습시키는 Cosmos 플랫폼을 선보였다. 이 플랫폼은 물리 법칙을 인식하는 합성 데이터 생성을 가속화해 로봇과 자율주행 차량이 학습하는 기존의 방식을 변화시킨다. 특히 세계 기초 모델(WFMs, World Foundation Models)이 공장 조립 로봇이나 인간과 상호작용하는 휴머노이드, 도로를 주행하는 자율주행 차량을 위한 3차원 물리 세계 시뮬레이션을 생성한다. 가상 환경에서 물리적 상호작용을 미리 학습시켜 실제 현장에 투입했을 때 발생하는 오작동 가능성을 낮춘다. 생성형 AI를 로보틱스 분야에 도입함으로써 데이터 수집의 물리적 한계를 극복한다.

오픈 소스 기반의 구현 방식을 확인하려는 개발자가 방문하는 NVIDIA/cosmos GitHub 저장소는 현재 폐기(deprecated) 상태로 전환되었다. 해당 저장소는 더 이상 유지 관리가 이루어지지 않는 상태로 운영된다. 초기 릴리스 내용을 확인해야 하는 경우에는 저장소 내의 `archived-ces2025` 브랜치를 통해 접근할 수 있다. 최신 메인 브랜치가 아닌 특정 아카이브 브랜치에서 초기 버전을 조회해야 하는 제약이 발생한다. 개발자는 최신 업데이트 대신 `archived-ces2025` 브랜치에 남은 초기 릴리스 기록을 통해 플랫폼의 초기 설계와 구현 방식을 파악해야 한다.

로봇 학습 데이터 병목을 겨냥한 해법, 다른 관점

과거에는 세계 생성과 물리적 이해, 장면 생성을 위해 서로 다른 모델과 워크플로우를 개별적으로 운용했다. Cosmos 3는 두 개의 타워로 구성된 Mixture-of-Transformers(MoT, 트랜스포머 혼합) 아키텍처를 도입해 이 기능들을 단일 모델로 통합했다. 개발자는 여러 모델을 엮는 오케스트레이션이나 복잡한 추론 파이프라인을 제거함으로써 로보틱스와 자율 시스템을 더 단순하게 구축하고 맞춤 설정하여 배포한다.

실제 환경 배포 전 단계의 검증 방식도 구체화했다. 엔비디아는 Omniverse(옴니버스, 디지털 트윈 플랫폼)를 Mega 운영체제로 업그레이드했다. 개발자는 가상 세계인 디지털 트윈 환경에서 로봇 플릿(robot fleets, 로봇 군단)을 생성하고 테스트하며 최적화 과정을 거친 뒤 실제 현장에 투입해 오작동 위험을 줄인다.

평가 기준은 주관적 등급에서 객관적 사실 검증으로 전환한다. Yogesh Balaji가 작성한 연구의 HUE(NVIDIA Cosmos Human Evaluation, 엔비디아 코스모스 인간 평가) 프레임워크는 의미론적 정렬, 물리 법칙, 기하학적 추론, 시각적 무결성이라는 4가지 차원에서 Yes/No 방식의 이진 질문을 통해 품질을 측정한다. VLM(Vision Language Model, 시각 언어 모델) 파이프라인으로 생성하고 인간 전문가가 정제한 이 질문 세트는 오픈 소스로 제공되어 객관적인 검증 지표로 작동한다.

로봇 학습 데이터 병목을 겨냥한 해법, 실무 판단

학습 데이터를 얻기 위해 수천 번 로봇을 직접 움직여야 했던 현장의 제약이 사라진다. NVIDIA는 물리적 AI(Physical AI) 구현을 지원하는 생성형 월드 모델 플랫폼 NVIDIA Cosmos를 제공해 로봇과 자율주행 차량의 학습 방식을 바꾼다. Cosmos 3 Super(32B)와 Nano(8B) 모델은 VANTAGE-Bench의 각 티어에서 선두를 차지했으며, PAI-Bench, R-Bench Physics-IQ, RoboLab 등 공개 리더보드에서 오픈 소스 SOTA(State-of-the-Art, 최신 기술 수준) 성능을 기록했다. 고성능 월드 모델이 물리적 추론의 정확도를 직접적으로 끌어올린 결과다.

실무자가 모델을 코드에 이식하는 과정은 더욱 간결해진다. NVIDIA는 단계별 레시피와 사후 훈련(post-training) 스크립트를 제공하는 Cosmos Cookbook을 통해 개발자가 월드 파운데이션 모델을 신속하게 구축하고 맞춤 설정하도록 돕는다. 배포 단계에서는 NVIDIA NIM(마이크로서비스)을 통해 최적화된 추론 런타임을 패키징하여 제공하므로 수동 튜닝 없이도 고성능 배포가 가능하다. 현재 추론 기능을 제공하는 Cosmos 3 Reasoner NIM이 출시되었으며, 생성 기능을 담당하는 Generator NIM이 출시될 예정이다.

기술의 업데이트 속도는 실제 배포 주기와 맞물려 빠르게 움직인다. 2025년 1월 7일에 v1 버전으로 처음 제출된 논문은 지속적인 수정을 거쳐 2025년 7월 9일에 v3 버전으로 arXiv에 게시되었다. 연구 단계의 모델이 빠르게 최적화되어 NIM과 같은 서비스 형태로 전환되는 구조는 물리 AI의 현장 적용 기간을 단축한다.

를 위한 새로운 GitHub 페이지가 개설되었습니다

연구실의 가설이 실제 배포 가능한 코드로 전환되는 속도가 급격히 빨라졌다. 엔비디아는 기존의 일반 저장소 체계를 벗어나 https://github.com/nvidia-cosmos 주소의 전용 GitHub 페이지와 저장소 컬렉션을 새롭게 개설했다. 개발자는 이제 분산된 정보가 아닌 통합된 경로를 통해 Cosmos의 모든 리소스에 즉시 접근하며 구현 속도를 높인다.

실무 적용의 최대 병목인 데이터 확보 단계도 단축한다. Hugging Face를 통해 로보틱스, 물리 시뮬레이션, 공간 추론, 인간 동작, 주행, 창고 환경을 다루는 6종의 SDG(Synthetic Data Generation, 합성 데이터 생성) 데이터셋과 훈련 레시피를 오픈 소스로 공개했다. 특히 SFT(Supervised Fine-Tuning, 지도 미세 조정)와 행동 사후 훈련을 위한 코드와 설정값을 GitHub에 함께 제공하여, 개발자가 보유한 개별 도메인 데이터에 맞춰 모델을 직접 조정하고 최적화하는 경로를 열었다.

인프라 측면에서는 세계 기초 모델(World Foundation Models)을 활용해 로봇과 자율주행 차량용 AI를 구축하고 배포하는 클라우드 기반 플랫폼을 운영한다. 모델 라인업은 기능별로 세분화하여 `cosmos-predict2.5`, `cosmos-transfer2.5`, `cosmos-reason2` 같은 최신 버전과 `cosmos-predict1`, `cosmos-transfer1`, `cosmos-reason1` 등 이전 버전을 모두 포함해 제공한다. 예측, 전이, 추론이라는 세 가지 핵심 기능에 최적화된 모델을 선택해 실제 물리 환경의 제어 정책에 즉시 투입하는 구조다.

물리 법칙을 이해하지 못한 로봇이 현실에서 오작동하는 문제는 개별 모델의 한계에서 비롯되었다. 코스모스 3는 물리적 추론과 세계 생성, 행동 생성을 단일 오픈 모델로 통합하며 이 문제를 해결한다. 특히 두 개의 타워로 구성된 Mixture-of-Transformers(MoT) 아키텍처는 복잡한 오케스트레이션 과정을 생략하게 만든다. 이제 개발자는 여러 모델을 엮는 번거로움 없이 단일 모델만으로 로봇의 행동 정책을 학습시키고 배포하는 효율성을 확보한다. 파편화된 파이프라인을 단일 모델로 대체하는 것이 물리 AI 구현의 핵심 경쟁력이 된다.