엔비디아, 로봇 두뇌 '코스모스 3' 공개…피지컬 AI 판도 바꾼다

수개월 걸리던 피지컬 AI 학습, 수일로 단축한 '코스모스 3

로봇이나 자율주행차를 개발하는 엔지니어가 리포지토리에 마지막으로 커밋한 코드는 단순한 작업 기록이 아니었다. 그것은 물리 세계를 이해하고 반응하는 지능을 구현하는 방식이 근본적으로 바뀌었음을 알리는 레퍼런스가 되었다. 엔비디아는 피지컬 AI(물리적 공간에서 사물을 인식하고 움직이는 인공지능)를 위한 오픈 월드 파운데이션 모델인 코스모스 3을 공개하며, 그동안 수개월씩 걸리던 훈련과 평가 과정을 단 며칠 수준으로 단축하는 성과를 냈다.

코스모스 3은 비전 추론(시각 정보를 바탕으로 상황을 판단하는 기술), 월드 생성(물리적 환경의 변화를 예측하는 기술), 액션 예측(로봇의 다음 동작을 결정하는 기술)을 하나의 시스템으로 통합한 혼합 트랜스포머 아키텍처를 기반으로 한다. 여기서 혼합 트랜스포머란 서로 다른 종류의 데이터를 처리하는 전문 구조를 하나로 묶은 설계를 의미한다. 이 모델은 텍스트와 이미지, 비디오, 주변음, 그리고 로봇의 액션 데이터를 동시에 처리한다. 물리 세계의 복잡한 움직임을 데이터로 받아들여 한꺼번에 학습하기 때문에, 기존처럼 각각의 기능을 따로 떼어 훈련할 때보다 훨씬 효율적으로 지능을 습득한다.

이 모델이 물리 세계를 다루는 방식은 기존 AI와 차별화된다. 코스모스 3은 비디오나 행동 궤적을 만들어내기 전에, 먼저 객체 간의 상호작용과 시공간적 관계를 이해하는 과정을 거친다. 수십억 개의 멀티모달(시각, 청각, 텍스트 등 여러 형태의 정보를 동시에 처리하는 방식) 데이터를 사전 학습했기에 가능한 일이다. 덕분에 개발자는 제한된 학습 데이터와 복잡한 시뮬레이션 환경에서도 로봇이 현실 세계에 안정적으로 적응하도록 만들 수 있다. 물리 법칙을 이해하는 지능을 만드는 데 필요한 시간과 자원을 획기적으로 줄인 것이다.

실제 개발 현장에서의 활용성 또한 높다. 개발자는 허깅페이스(AI 모델과 데이터셋을 공유하는 오픈 플랫폼)에서 코스모스 3 모델을 내려받아 자신의 목적에 맞게 추가 학습을 수행할 수 있다. 이후 엔비디아 NIM(AI 모델을 즉시 서비스로 배포할 수 있게 돕는 마이크로서비스)을 통해 이를 즉시 현장에 배포하는 것이 가능하다. 인프라 구축에 들이는 시간과 비용을 대폭 절감하면서도, 곧바로 로봇이나 자율주행차에 지능을 탑재할 수 있는 환경이 마련된 셈이다. 이는 피지컬 AI 생태계가 실험실 수준을 넘어 실제 산업 현장으로 빠르게 진입할 수 있는 기술적 발판이 된다.

두뇌와 손발을 하나로, '혼합 트랜스포머'의 작동 원리

로봇이나 자율주행차가 복잡한 현실 세계를 마주할 때, 단순히 눈앞의 사물을 인식하는 것만으로는 부족합니다. 주변 환경이 어떻게 변할지, 내가 움직였을 때 어떤 결과가 나타날지를 미리 내다보는 능력이 필수적이기 때문입니다. 코스모스 3은 바로 이 지점에서 기존 모델들과 차별화된 방식을 취합니다. 이 모델은 추론 전용 트랜스포머와 생성 전용 트랜스포머를 하나의 시스템으로 결합한 혼합 트랜스포머 아키텍처를 핵심 동력으로 삼습니다.

여기서 트랜스포머는 데이터의 맥락을 파악하는 인공지능의 신경망 구조를 의미합니다. 코스모스 3은 비디오를 만들거나 로봇의 행동 궤적을 결정하기 전에, 먼저 화면 속 객체들이 서로 어떤 관계를 맺고 있는지, 시간과 공간에 따라 어떻게 움직이는지를 정밀하게 분석합니다. 즉, 무작정 이미지를 생성하는 것이 아니라 물리 법칙에 기반한 인과관계를 먼저 이해하고 계산하는 과정을 거칩니다. 덕분에 모델은 수십억 개의 멀티모달 데이터(텍스트, 이미지, 비디오, 오디오 등 다양한 형태의 정보)를 학습하며 물리 세계의 복잡한 규칙을 스스로 체득하게 됩니다.

이러한 구조적 특징 덕분에 코스모스 3은 상황에 따라 다목적으로 활용됩니다. 먼저 비전언어모델(VLM)로서 멀티모달 정보를 이해하고 추론하는 두뇌 역할을 수행할 수 있습니다. 또한 미래의 환경 변화를 시뮬레이션하는 월드 모델로 작동하거나, 로봇의 구체적인 움직임을 설계하는 월드 액션 모델의 기반 기술로도 쓰입니다. 단순히 보는 것을 넘어, 보고 생각하고 행동하는 피지컬 AI의 전 과정을 하나의 모델 안에서 통합적으로 처리하는 셈입니다.

개발자는 이제 허깅페이스(Hugging Face, 오픈소스 AI 모델 공유 플랫폼)에서 코스모스 3 모델을 내려받아 자신의 목적에 맞게 추가 학습을 진행할 수 있습니다. 학습이 완료된 모델은 엔비디아 NIM(NVIDIA Inference Microservices, AI 모델을 즉시 배포 가능한 형태로 패키징한 서비스)을 통해 즉시 현장에 배포됩니다. 복잡한 인프라를 처음부터 구축할 필요 없이 검증된 모델을 바로 실무에 투입할 수 있어, 개발 과정의 시간과 비용을 획기적으로 줄이는 구조입니다. 물리 세계를 이해하는 모델이 더 가볍고 빠르게 현장에 안착할 수 있는 환경이 마련된 것입니다.

벤치마크 1위 석권, 기존 모델과의 성능 격차

많은 데이터를 쏟아붓는 것만이 정답은 아니다. 코스모스 3은 학습 데이터가 제한적이고 시뮬레이션 환경이 복잡하게 얽힌 현장에서도 기존 모델보다 훨씬 안정적인 적응력을 보여주며 기술적 우위를 증명했다. 특히 월드 생성 부문에서 아티피셜 애널리시스(Artificial Analysis), 피직스-IQ(Physics-IQ), PAI-벤치(PAI-Bench), R-벤치(R-Bench) 등 주요 공개 평가 지표를 모두 휩쓸며 1위를 차지했다. 이는 단순히 이미지를 그럴듯하게 만드는 것을 넘어, 물리 법칙을 얼마나 정확하게 시뮬레이션하는지 입증한 결과다.

로봇이 스스로 판단하고 움직이는 액션 정책(Action Policy) 분야에서도 성과는 두드러진다. 로보랩(RoboLab)과 로보아레나(RoboArena)에서 최고 성적을 기록하며, 복잡한 지시를 수행하는 로봇의 제어 능력이 검증됐다. 비전 이해 분야 역시 마찬가지다. 밴티지-벤치(Vantage-Bench)와 TAR 리더보드에서 최고 점수를 받아, 로봇이 눈앞의 상황을 얼마나 정확하게 해석하고 인지하는지 보여주는 지표에서 압도적인 모습을 보였다.

이러한 결과는 코스모스 3이 추론 전용과 생성 전용 트랜스포머를 결합한 혼합 트랜스포머 구조를 채택했기에 가능했다. 비디오나 행동 궤적을 생성하기 전에 객체 간 상호작용과 시공간적 관계를 먼저 이해하는 과정을 거치기 때문이다. 덕분에 개발자는 제한된 환경에서도 모델을 더 빠르게 훈련하고 평가할 수 있다. 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에서 모델을 내려받아 맞춤형 학습을 진행하고, 엔비디아 NIM(NVIDIA Inference Microservices, AI 모델을 즉시 배포할 수 있게 돕는 서비스)을 통해 인프라 구축 비용과 시간을 획기적으로 절감하며 현장에 바로 배포할 수 있는 구조다.

결국 코스모스 3은 월드 생성부터 액션 정책까지 다양한 평가 지표에서 최고 성적을 거두며 기존 모델과의 성능 격차를 벌렸다. 수십억 개의 멀티모달 데이터를 사전 학습한 덕분에, 이제 개발자는 더 적은 비용으로도 물리 세계를 이해하는 똑똑한 AI 에이전트를 구축할 수 있게 됐다. 이는 단순히 벤치마크 수치 1위를 기록한 것을 넘어, 로봇과 자율주행차가 현실 세계의 복잡한 변수에 대응하는 방식 자체가 효율적으로 바뀌었음을 의미한다.

생태계 확장 가속화, '엔비디아 코스모스 연합' 출범

기술의 표준을 정하는 것은 혼자만의 힘으로 불가능하다는 판단 아래 엔비디아는 '엔비디아 코스모스 연합(NVIDIA Cosmos Coalition)'을 공식 출범했다. 애자일 로봇(Agile Robots, 지능형 로봇 개발사), 블랙 포레스트 랩스(Black Forest Labs, 이미지 및 비디오 생성 모델 기업), 런웨이(Runway, 영상 생성 AI 서비스)를 포함한 주요 월드 모델 개발사와 AI 기업들이 이 연합에 합류했다. 이들은 각자의 기술력을 결합해 물리 세계를 이해하는 AI의 표준을 함께 만들어 나갈 계획이다.

연합에 참여한 기업들은 엔비디아의 DGX 클라우드(DGX Cloud, 대규모 AI 모델 학습을 위한 고성능 컴퓨팅 인프라)를 활용해 모델을 학습하고 평가한다. 특히 현실 세계의 데이터를 구하기 어려운 문제를 해결하기 위해 뉴럴 장면 재구성(Neural Scene Reconstruction, 실제 공간을 AI가 이해할 수 있는 3차원 데이터로 변환하는 기술)과 결함 이미지 생성 등 합성 데이터(Synthetic Data, AI가 학습할 수 있도록 가상으로 만들어낸 데이터) 생성 기능을 적극 활용한다. 이는 실제 환경에서 발생할 수 있는 희귀한 상황까지 AI가 미리 학습할 수 있도록 돕는 핵심 장치다.

개발 환경의 문턱을 낮추기 위한 도구들도 함께 제공된다. 개발자는 허깅페이스(Hugging Face, AI 모델과 데이터셋을 공유하는 오픈소스 플랫폼)에서 코스모스 3 모델을 직접 내려받아 자신의 목적에 맞게 추가 학습을 수행할 수 있다. 이후 허깅페이스 디퓨저(Diffusers, 이미지와 비디오 생성을 위한 라이브러리)를 통해 모델을 다듬고, 엔비디아 NIM(NVIDIA Inference Microservices, AI 모델을 즉시 배포하고 실행할 수 있도록 규격화된 서비스)을 통해 실제 서비스 환경에 빠르게 올릴 수 있다. 이러한 일련의 과정은 복잡한 인프라 구축 고민 없이 개발자가 모델의 성능 개선에만 집중할 수 있는 환경을 제공한다.

엔비디아는 베이스텐(Baseten, AI 모델 배포 및 운영 플랫폼), 코어위브(CoreWeave, GPU 특화 클라우드 서비스) 등 다양한 클라우드 파트너들과 협력해 배포의 편의성까지 확보했다. 개별 기업이 독자적으로 인프라를 구축할 때 겪는 비용과 시간의 병목을 생태계 차원의 협업으로 돌파하겠다는 의도다. 결과적으로 개발자들은 검증된 기술 스택을 바탕으로 로봇의 작업 수행 능력이나 자율주행 알고리즘을 훨씬 빠르게 시장에 내놓을 수 있게 되었다.

삼성·LG전자 등 국내 기업, 산업 AI 현장에 즉시 적용

새로운 기술을 도입할 때마다 매번 밑바닥부터 인프라를 새로 짜고 데이터를 수집하느라 쏟았던 시간은 개발자들에게 가장 큰 숙제였습니다. 이런 반복적인 초기 구축 비용을 줄이고 현장에 즉시 투입 가능한 산업용 AI를 구현하려는 움직임이 국내 주요 제조 현장에서 구체화되고 있습니다. 특히 로봇과 자율주행, 스마트 팩토리 분야의 기업들은 엔비디아의 플랫폼을 활용해 개발 주기를 획기적으로 단축하는 데 집중하고 있습니다.

로보틱스 분야에서는 두산로보틱스와 LG전자, 삼성전자가 이미 이 플랫폼을 기반으로 차세대 로봇 제어 및 산업용 AI 기술을 고도화하고 있습니다. 또한 애자일 로봇(Agile Robots)과 스킬드 AI(Skilled AI) 같은 전문 로봇 기업들도 복잡한 물리 환경에서 로봇이 스스로 판단하고 움직이는 정책을 학습시키는 데 이 도구를 사용합니다. 자율주행 분야에서는 리오토(Li Auto)가 주행 환경 데이터와 시뮬레이션 환경을 연결하며 기술적 완성도를 높이고 있습니다.

비전 AI 분야의 활용 범위는 더욱 넓습니다. 센티픽(Centific), 포그스피어(FogSphere), 링커 비전(Linker Vision), 마일스톤 시스템즈(Milestone Systems), 유안(Yuan) 등은 산업 현장의 시각 정보를 실시간으로 분석하는 스마트 공간 애플리케이션을 개발 중입니다. 이들은 창고 내 안전 관리 시스템이나 생산 공정의 결함 탐지 등 고도의 시각적 추론이 필요한 영역에서 엔비디아의 기술 스택을 핵심 도구로 활용합니다.

개발자들은 허깅페이스(Hugging Face, AI 모델을 공유하고 내려받는 플랫폼)에서 코스모스 3 모델을 직접 내려받아 각 산업 현장에 맞는 맞춤형 학습을 수행할 수 있습니다. 이후 엔비디아 NIM(NVIDIA Inference Microservices, AI 모델을 즉시 서비스 형태로 배포할 수 있도록 돕는 소프트웨어 구성 요소)을 통해 개발된 모델을 현장에 즉시 배포합니다. 이러한 일련의 과정은 복잡한 인프라 구축 없이도 산업용 AI를 현장에 빠르게 안착시키는 핵심 동력이 되고 있습니다.

이제 개발자는 허깅페이스에서 코스모스 3를 내려받아 맞춤형 학습을 수행하고 엔비디아 NIM으로 즉시 배포하는 효율적인 경로를 활용할 수 있다. 복잡한 인프라를 처음부터 구축하던 시대는 저물고, 검증된 모델을 조립해 산업 현장에 빠르게 안착시키는 것이 피지컬 AI의 새로운 성공 방정식이 된다.