자율주행·로봇 개발 병목 뚫는 NVIDIA '물리 AI 에이전트 스킬' 공개

CVPR 2026에서 공개된 Cosmos 3와 Alpamayo 2 Super

자율주행이나 로봇 학습을 위해 현실에서 마주하기 힘든 희귀 사례(Edge Case) 데이터를 수집하려면 막대한 비용과 시간이 소요된다. 엔비디아는 6월 3일부터 7일까지 덴버에서 열리는 CVPR 2026에서 이 과정을 자동화하는 물리 AI 에이전트 스킬을 공개했다. 시각 추론과 세계 및 행동 생성을 통합한 옴니모델 'NVIDIA Cosmos 3'가 그 중심에 있다. 이 모델은 장면 재구성부터 합성 데이터 생성, 정책 학습 및 평가까지 이어지는 물리 AI 워크플로우 전체를 자동화하여, 연구자가 개별 도구를 수동으로 연결하던 파편화된 과정을 하나로 통합했다.

추론과 계획, 행동을 동시에 수행하는 320억 파라미터 규모의 VLA(Vision-Language-Action, 시각-언어-행동) 모델 'Alpamayo 2 Super'도 함께 공개됐다. 이 모델은 자율주행 스택 전반에서 상황을 추론하고 계획을 세워 레벨 4 자율주행의 안전성과 확장성을 높인다. 로봇 공학용 시뮬레이션 도구인 'Isaac Sim 6.0'은 에이전트 친화적 커넥터를 포함해 개발 환경을 통합했다. 연구자는 에이전트를 통해 시뮬레이션 세션 실행, 장면 저작, 데이터 캡처 작업을 자동 수행함으로써 모델의 추론 능력을 물리적 행동으로 전환하는 과정의 시간 손실을 제거했다.

데이터 공급망 확장을 위해 인간과 물체의 상호작용 데이터 약 50시간이 담긴 'GRAIL' 데이터셋을 출시했다. 허깅페이스(Hugging Face) 내 NVIDIA Physical AI Dataset 다운로드 수는 이미 1,500만 건을 돌파했다. 대규모 데이터셋의 공개는 데이터 확보가 병목이었던 물리 AI 개발의 진입장벽을 낮추는 실질적인 동력이 된다.

Cosmos 3의 MoT 구조와 신경 재구성 기술

엔비디아는 희귀 사례 데이터 수집 비용을 낮추기 위해 합성 데이터 자동 생성 루프를 도입했다. Cosmos 3는 추론과 생성을 분리한 MoT(Mixture-of-Transformers) 구조를 채택했다. 추론 트랜스포머가 입력된 관찰 내용을 분석하면, 생성 타워가 이를 물리적 환경 구축을 위한 지시어로 변환한다. 이 구조를 통해 물리적 근거가 확실한 가상 세계를 대규모로 확장할 수 있다.

데이터의 정밀도는 신경 재구성(Neural Reconstruction) 스킬이 결정한다. 차량 플릿(Fleet)이 수집한 실제 주행 데이터를 편집 가능한 3D 장면으로 변환하는 기술이다. 특히 InstantNuRec은 복잡한 최적화 과정 없이 이미지 데이터만으로 즉시 3D 가우시안 도로 장면을 재구성한다. 여기에 Omniverse NuRec, Harmonizer, HiGS 렌더러가 결합되어 리얼리즘을 높이며, 다양한 각도에서 새로운 뷰를 생성해 학습 데이터 양을 늘린다. 연구자는 실제 도로의 일부를 가상 공간으로 가져와 기하학적 구조를 수정하며 롱테일 시나리오를 생성할 수 있다.

학습과 검증의 속도는 AlpaGym이 제어한다. AlpaGym은 정책 롤아웃과 고충실도 시뮬레이션을 연결하는 오픈소스 폐루프 강화학습 프레임워크다. 수천 개의 GPU를 활용해 시뮬레이션 실행과 정책 평가를 동시에 수행하며, Alpamayo 2 Super 같은 VLA 모델이 최적의 행동 정책을 학습하는 환경을 제공한다.

수동 도구 연결에서 에이전트 기반 자동화 워크플로우로의 전환

기존에는 장면 재구성부터 시나리오 생성, 정책 학습, 행동 평가까지 모든 단계를 연구자가 개별 소프트웨어를 번갈아 사용하며 수동으로 연결했다. 이제 AI 에이전트가 Isaac Sim 내에서 세션 실행과 장면 저작, 시뮬레이션 제어, 데이터 캡처를 직접 수행한다. 파편화된 도구 체인을 에이전트가 제어하는 통합 환경으로 바꾼 결과다.

로봇 학습의 병목이었던 강화학습 과정도 자동화됐다. Isaac Lab 스킬을 통해 강화학습 설정, 훈련, 평가 과정이 자동으로 이뤄지며, 연구자가 코드로 설정하던 커스텀 환경 개발 역시 에이전트가 처리한다. 개발자는 이제 소프트웨어 간 호환성이나 연결 방식이 아니라 학습 전략 자체에만 집중할 수 있다.

시뮬레이션의 시각적 정밀도와 피드백 속도는 OmniDreams(행동 조건부 생성 세계 모델)가 해결한다. 정책 행동에 실시간으로 반응하는 포토리얼리스틱 카메라 프레임을 생성하여, 가상 세계의 물리적 움직임을 즉각적으로 고해상도 영상으로 변환해 학습 루프에 투입한다. 이러한 자동화 워크플로우는 VLA 모델이 추론하고 계획하며 행동하는 전 과정을 검증하는 데 필요한 수만 가지의 희귀 사례 시나리오를 효율적으로 생성하게 하며, 가상 환경의 학습 결과를 실제 물리 세계로 옮기는 Sim-to-Real 전환 비용을 낮춘다.

자율주행 '롱테일' 문제와 비전 AI 데이터 벽 해결

자율주행 분야에서는 희귀 상호작용과 도로 기하학 등 롱테일 데이터를 합성 시나리오로 생성해 검증한다. 비전 AI의 병목인 데이터 벽 문제는 Metropolis 스킬로 해결한다. 이상 징후나 제품 결함 이미지를 합성해 모델이 학습할 수 있는 제어된 사례를 확보한다. 결함 이미지 생성 워크플로우는 Isaac Sim, Cosmos 3, 그리고 오케스트레이션을 담당하는 OSMO를 결합해 작동한다. 연구자는 실물 이미지에 다양한 결함 사례를 덧입혀 모델의 반응을 즉각적으로 평가할 수 있다.

대규모 영상 데이터 분석 과정도 자동화했다. Metropolis VSS(Video Search and Summarization) Blueprint를 통해 복잡한 장면을 추론하고 활동을 요약하며 이상 징후 발생 시 알림을 보내는 루프를 수행한다. 비디오 AI 에이전트는 NVIDIA TAO와 비디오 증강 스킬을 사용해 모델 미세 조정과 구축-평가 루프를 자동화한다.

의료 로봇 분야에서는 Cosmos-H-Surgical-Simulator가 실제 수술 데이터를 학습해 시뮬레이션과 실제 수술 간의 간극을 좁힌다. 수동으로 설계한 물리 모델이 아니라 실제 데이터를 기반으로 학습해 자율 수술 작업의 정확도를 높였으며, 정교한 조작이 필요한 의료 환경에서 Sim-to-Real 간극을 줄이는 방법론을 제시했다.

한국 AI 현장에서 볼 지점

국내 자율주행 및 로봇 기업들의 개발 속도를 늦춘 주범은 에지 케이스(Edge Case) 데이터 확보였다. 사고 직전의 급제동이나 예측 불가능한 보행자 움직임 같은 데이터를 수동으로 수집하는 비용은 매우 높다. 엔비디아의 합성 데이터 생성 기술은 이 과정을 가상 환경의 생성 공정으로 대체한다. 이제 시장의 경쟁력은 모델의 파라미터 크기보다 시뮬레이션과 학습 루프를 얼마나 빠르게 회전시키느냐라는 운영 효율에서 결정된다.

제어와 인지, 판단을 각각 다른 모듈로 개발하던 기존 스택은 Alpamayo 2 Super 같은 VLA 모델을 통해 하나로 통합된다. 시각 정보를 입력받아 곧바로 행동 명령을 출력함으로써 인지 모듈에서 판단 모듈로 데이터를 넘길 때 발생하는 지연 시간과 인터페이스 오류가 사라진다. 이는 국내 기업들이 L4 수준의 복잡한 주행 시나리오를 구현하는 개발 기간을 단축시킨다.

가상 세계의 학습 결과가 실제 기기에서 작동하지 않는 Sim-to-Real 간극은 여전히 상용화의 큰 벽이다. 국내 의료 로봇이나 정밀 제조 기업들은 Surgical-Simulator 같은 특화 도구를 도입해 실제 하드웨어 파손 위험 없이 반복 테스트를 수행할 수 있다. 동시에 허깅페이스(https://huggingface.co/nvidia)에서 제공하는 대규모 물리 AI 데이터셋을 기초 모델로 삼고, 국내 현장의 특수 데이터를 덧입혀 도메인 특화 모델을 구축하는 전략이 현실적인 대안이 된다. 이 루프를 자동화한 기업이 실제 물리 환경에서의 배포 비용을 가장 먼저 낮추게 된다.

희귀 사례 수집에 투입되던 막대한 비용과 시간의 병목이 사라진다. 엔비디아는 코스모스 3와 에이전트 스킬로 장면 재구성부터 합성 데이터 생성, 정책 학습과 평가까지의 워크플로우를 자동화했다. 320억 개의 파라미터를 가진 VLA 모델 알파마요 2 슈퍼가 추론과 행동의 연결 고리를 완성한다.

수동으로 연결하던 시뮬레이션-학습-검증 루프의 자동화는 심투리얼 전환 비용을 낮추는 실질적 기준이 된다. 물리 AI의 상용화 속도는 이제 모델의 파라미터 수가 아니라 학습 루프의 회전 속도가 결정한다.