NVIDIA가 텍스트, 이미지, 비디오 클립을 조건으로 물리적으로 타당한 비디오를 생성하는 대규모 월드 모델인 Cosmos Predict 2.5를 공개했다. 이 모델은 물리 법칙을 이해하는 비디오 생성 능력을 갖추고 있으나, 로봇 조작(Robot Manipulation)이나 특정 카메라 시점과 같은 특수 도메인에 적용하기 위해서는 타겟 데이터에 맞춘 파인튜닝 과정이 필수적이다.
실제 로봇 정책 학습을 위한 궤적 데이터 수집은 비용이 많이 들고 속도가 느리다는 한계가 있다. 이를 해결하기 위해 파인튜닝된 비디오 월드 모델로 합성 궤적(Synthetic Trajectories)을 생성하는 방식이 확장 가능한 대안으로 제안된다. 하지만 2B(20억 개) 파라미터 규모의 모델을 전체 파인튜닝하는 것은 막대한 컴퓨팅 자원을 소모하며, 기존의 일반적 지식을 잃어버리는 치명적 망각(Catastrophic Forgetting) 위험을 수반한다.
이번 가이드에서는 LoRA(Low-Rank Adaptation, 저차원 적응)와 DoRA(Weight-Decomposed Low-Rank Adaptation, 가중치 분해 저차원 적응)를 활용해 메모리 요구량을 줄이고 단일 GPU에서도 실용적인 학습이 가능하게 만드는 방법론을 다룬다. diffusers(디퓨저스, 확산 모델 라이브러리)와 accelerate(액셀러레이트, 분산 학습 라이브러리)를 사용하여 단일 및 다중 GPU 환경에서 모델을 최적화하고, 이를 통해 로봇 학습 태스크를 위한 고품질 합성 데이터를 생성하는 워크플로우를 제시한다.
Cosmos Predict 2.5 파인튜닝을 위한 2B 모델과 H100 학습 수치
단일 H100 GPU 한 대로 학습을 진행할 때 17시간이 소요되던 작업이 8대의 H100 환경에서는 2.5시간으로 단축된다. NVIDIA Cosmos Predict 2.5의 2B 파라미터 모델을 대상으로 100 에포크(epoch) 학습을 수행했을 때 관찰된 구체적인 수치다. 이는 대규모 월드 모델을 특정 도메인에 적응시키기 위한 파인튜닝 과정에서 하드웨어 자원의 병렬 배분이 학습 효율에 결정적인 영향을 미친다는 점을 보여준다. 특히 로봇 조작이나 특정 카메라 시점과 같이 정교한 데이터셋을 통한 도메인 적응이 필요할 때, 이러한 학습 시간의 단축은 가설 검증과 실험 사이클의 속도를 획기적으로 높이는 실무적 가치를 가진다.
풀 파인튜닝 방식은 2B 규모의 파라미터를 모두 다뤄야 하므로 막대한 메모리 비용이 발생하며, 학습 과정에서 모델이 기존에 보유한 일반적 지식을 소실하는 치명적 망각(catastrophic forgetting) 현상이 발생할 위험이 크다. 이를 방지하기 위해 LoRA(Low-Rank Adaptation, 저차원 적응)와 DoRA(Weight-Decomposed Low-Rank Adaptation, 가중치 분해 저차원 적응) 기법이 도입되었다. 구체적으로 rank=32, lora_alpha=32 설정을 적용하여 학습 가능한 파라미터 수를 약 50M(5천만 개) 수준으로 억제했다. 이는 전체 모델 규모 대비 극히 일부만을 학습시키면서도, lora_alpha를 rank와 동일하게 설정해 업데이트 강도를 1.0으로 유지함으로써 필요한 표현력을 충분히 확보하는 전략으로 분석된다.
Hugging Face의 diffusers(디퓨저스, 확산 모델 라이브러리)와 accelerate(액셀러레이트, 분산 학습 라이브러리)가 기술적 구현을 위한 핵심 스택으로 사용되었다. accelerate는 단일 GPU와 멀티 GPU 환경 사이의 분산 처리를 자동화하여, 인프라 설정의 복잡도를 낮추고 모델 최적화에 집중할 수 있는 환경을 제공한다. 아래 명령어를 통해 학습에 필요한 필수 라이브러리를 설치할 수 있다.
pip install diffusers accelerate이러한 라이브러리 조합은 2B 모델의 방대한 가중치를 동결한 상태에서 소규모 어댑터 모듈만을 효율적으로 학습시키는 구조를 뒷받침한다. 이렇게 생성된 어댑터 파일은 크기가 작고 이식성이 높아, 추론 시점에 도메인별로 어댑터를 유연하게 교체하며 사용할 수 있는 실무적 이점을 제공한다. 결과적으로 8대의 H100을 활용한 2.5시간의 짧은 학습만으로도 로봇 비디오 생성의 기하학적 일관성과 지시 이행 능력을 유의미하게 개선할 수 있음이 수치로 증명되었다.
Rectified Flow 기반의 DiT 구조와 LoRA 어댑터 주입 방식
Cosmos Predict 2.5의 내부 구조는 VAE(Variational Autoencoder, 변분 오토인코더), 텍스트 인코더, 그리고 DiT(Diffusion Transformer, 디퓨전 트랜스포머)라는 세 가지 핵심 서브모듈로 구성된다. 효율적인 도메인 적응을 위해 학습 과정에서는 VAE와 텍스트 인코더뿐만 아니라 DiT의 기본 가중치까지 모두 동결하는 전략을 취한다. 대신 DiT 내의 특정 지점에 LoRA(Low-Rank Adaptation, 저차원 적응) 어댑터를 삽입하여 학습 파라미터를 최소화하고 메모리 요구량을 낮춘다. 구체적인 주입 지점은 어텐션 투영 레이어인 `to_q`, `to_k`, `to_v`, `to_out.0`와 피드포워드 레이어의 `ff.net.0.proj`, `ff.net.2`로 설정된다. 특히 수치적 안정성을 확보하기 위해 LoRA 파라미터는 float32로 업캐스트하여 bf16 혼합 정밀도 학습을 수행하는 방식이 적용된다. 이는 정밀도 손실을 방지하면서도 연산 효율을 챙기려는 설계로 분석된다.
Rectified Flow 방식이 학습의 핵심 메커니즘으로 채택되었다. 이는 노이즈 샘플을 깨끗한 데이터로 선형 운송하는 속도를 예측하는 기법으로, 기존의 복잡한 확산 경로를 단순화한 것이 특징이다. 구체적으로 타임스텝 t에서 노이즈 레벨 $\sigma_t$를 샘플링하여 $x_t = \sigma_t \cdot \text{noise} + (1-\sigma_t) \cdot \text{clean}$ 형태의 노이즈 섞인 보간물을 생성한다. 모델은 이 상태에서 타겟 속도인 $\text{noise} - \text{clean}$을 예측하도록 학습하며, 이때 손실 함수로는 Mean-Squared Errors(MSE loss)가 사용되어 예측값과 실제 속도 사이의 오차를 최소화한다. 특히 비디오의 첫 두 프레임은 조건부 정보로 활용되므로 해당 레이턴트에는 노이즈를 추가하지 않아 생성 비디오의 일관성을 유지한다.
`torch.optim.AdamW` 옵티마이저와 `get_linear_schedule_with_warmup` 스케줄러를 조합하여 최적화 단계에서 학습의 수렴 속도와 안정성을 동시에 제어한다. 스케줄러는 `scheduler_warm_up_steps` 동안 학습률을 선형적으로 증가시켜 피크치인 `scheduler_f_max`에 도달하게 하며, 이후 남은 학습 단계 동안 `scheduler_f_min`까지 다시 선형적으로 감소시키는 전략을 취한다. 이러한 정교한 학습률 제어는 모델이 초기 단계에서 급격하게 발산하는 것을 막고, 후반부에는 세밀한 가중치 조정을 가능하게 한다. 이러한 구조적 설계는 20억 개의 파라미터를 가진 대규모 모델을 단일 GPU 환경에서도 효율적으로 튜닝 가능하게 하며, 특정 도메인에 특화된 어댑터만을 빠르게 교체하여 추론에 활용하는 환경을 구축한다.
LoRA와 DoRA의 성능 비교 및 랭크(Rank)별 지시어 이행 차이
베이스 모델이 생성한 비디오에서는 로봇 손이 인간의 손으로 왜곡되어 나타나거나 지시어에 명시된 손을 제대로 사용하지 못하는 현상이 관찰된다. 예를 들어 왼쪽 손으로 오이를 집으라는 지시를 내려도 모델이 이를 정확히 이행하지 못하거나, 프레임 간 연결이 매끄럽지 않은 비디오 지터링(Jitter)이 빈번하게 발생한다. 이러한 문제는 LoRA(Low-Rank Adaptation, 저랭크 적응)나 DoRA(Weight-Decomposed Low-Rank Adaptation, 가중치 분해 저랭크 적응)를 적용함으로써 모두 해결된다. 파인튜닝을 거친 모델은 로봇 손의 형태를 정확하게 유지하며 지시어에 따른 정교한 움직임을 구현한다.
가중치를 크기(Magnitude)와 방향(Direction)으로 분해하여 업데이트하는 방식이 DoRA의 핵심이다. 이는 기존 LoRA가 가중치의 변화량만을 학습하던 방식에서 나아가, 가중치의 크기와 방향을 독립적으로 제어함으로써 풀 파인튜닝에 더 가까운 학습 능력을 확보하려는 시도다. 실험 결과 DoRA는 LoRA와 유사한 수렴 성능을 보였으며, 가중치 분해 과정이 추가되었음에도 학습 속도나 효율을 저해하지 않는 것으로 나타났다. 매우 낮은 랭크 설정에서는 DoRA의 구조적 이점이 성능 향상에 기여할 수 있으나, 본 연구의 설정 범위 내에서는 두 방식 모두 안정적인 도메인 적응 성능을 보여준다.
랭크(Rank) 설정에 따른 성능 변화를 살펴보면 랭크 8보다 랭크 32에서 지시어 이행(Instruction Following) 능력이 유의미하게 향상된다. 랭크가 높아질수록 모델이 학습할 수 있는 파라미터 수가 증가하며, 이는 어떤 손을 사용해 어떤 객체와 상호작용해야 하는지에 대한 정밀한 제어 능력을 확보하는 결과로 이어진다. 반면 기하학적 일관성이나 물리적 타당성은 랭크 크기와 무관하게 일정 수준을 유지하는 경향이 관찰된다.
영상의 기하학적 기본 원리와 물리적 사전 지식이 이미 동결된 베이스 모델의 가중치에 깊게 내재되어 있음이 이러한 결과에서 드러난다. LoRA 어댑터는 이러한 기초 지식을 수정하기보다는, 로봇의 외형이나 특정 작업 구조라는 도메인 특성으로 분포를 이동시키는 역할에 집중한다. 따라서 기하학적 일관성을 높이기 위해 무작정 랭크를 높이기보다는, 지시어 이행의 정밀도가 필요한 작업의 복잡도에 맞춰 랭크를 최적화하는 전략이 실무적으로 유효하다.
Sampson Error와 Cosmos Reason2를 통한 비디오 품질 검증
파인튜닝 전의 베이스 모델은 로봇 손의 외형을 유지하지 못하고 프레임이 진행됨에 따라 사람의 손으로 변형시키거나 지시한 손의 방향을 무시하는 경향이 관찰된다. 이러한 물리적 불일치를 정량적으로 측정하기 위해 Sampson Error(Sampson Error, 매칭된 키포인트와 에피폴라 라인 사이의 거리를 측정하는 기하학적 오차 지표)와 Cosmos Reason2(Cosmos Reason2, 생성 비디오를 1~5점으로 평가하는 LLM 판별기)가 도입된다. Sampson Error는 프레임 간 혹은 카메라 뷰 간의 움직임이 기하학적으로 일관된지를 평가하며 수치가 낮을수록 지터링이나 환각 현상이 적음을 의미한다. 반면 Cosmos Reason2는 LLM의 추론 능력을 활용해 비디오의 물리적 타당성과 지시문 준수 여부를 1점에서 5점 사이의 점수로 수치화하여 평가한다.
왼손으로 오이를 집어 그릇에 넣거나 오른손으로 주스 팩을 옮기는 구체적인 조작 작업이 검증 과정에서 평가 대상으로 설정된다. 베이스 모델은 해당 작업에서 로봇 손의 형태가 무너지거나 지시된 손이 아닌 반대쪽 손을 사용하는 등 제어 능력이 부족한 모습이 확인되며 비디오 전반에 걸쳐 눈에 띄는 지터링 현상이 발생한다. 그러나 LoRA(Low-Rank Adaptation, 저차원 적응)와 DoRA(Weight-Decomposed Low-Rank Adaptation, 가중치 분해 저차원 적응)를 통해 파인튜닝을 진행한 결과 로봇 손의 외형이 일관되게 유지되며 지시한 왼손과 오른손을 정확하게 사용하는 결과가 도출된다. 이는 모델이 특정 도메인의 로봇 외형과 작업 구조를 성공적으로 학습하여 물리적으로 타당한 궤적을 생성할 수 있음을 입증한다.
실제 구현 단계에서 어댑터의 랭크 설정에 따른 성능 변화는 자원 배분 전략을 세우는 데 중요한 근거가 된다. 랭크를 8에서 32로 상향 조정했을 때 모델이 어떤 손을 사용하고 어떤 객체와 상호작용해야 하는지에 대한 지시문 준수 능력은 눈에 띄게 향상된다. 하지만 기하학적 일관성이나 물리적 타당성 지표에서는 유의미한 개선이 관찰되지 않는다. 이는 기하학적 및 물리적 사전 지식이 이미 베이스 모델의 동결된 가중치에 상당 부분 내재되어 있으며 어댑터는 단지 도메인 분포를 로봇 외형과 작업 구조로 이동시키는 역할만 수행한다는 분석을 가능하게 한다.
로봇 학습을 위한 합성 데이터 생성 파이프라인을 구축하려는 개발자에게 이러한 결과는 효율적인 가이드를 제공한다. 모든 파라미터를 미세 조정하지 않고도 낮은 랭크의 어댑터만으로 도메인 적응이 가능하다는 점은 단일 GPU 환경에서도 충분히 실무적인 적용이 가능함을 의미한다. 특히 물리적 타당성이 베이스 모델에서 보존된다는 사실은 합성 비디오를 통한 정책 학습 시 데이터의 신뢰도를 높이는 핵심 요소가 된다. 결국 랭크 8 수준의 가벼운 설정으로도 기본적인 외형 유지와 작업 구조 학습이 가능하므로 정밀한 제어가 필요한 특정 태스크에 대해서만 선택적으로 랭크를 높이는 최적화 경로를 제안한다.
합성 데이터 생성 기반의 로봇 학습 파이프라인 구축 전략
사람이 직접 시연하거나 정밀한 원격 제어를 수행해야 하는 실제 로봇의 궤적 수집 과정은 시간과 비용 소모가 매우 크다. 이러한 물리적 제약을 해결하기 위해 파인튜닝된 월드 모델(World Model, 주변 환경의 물리적 변화를 예측하는 모델)을 활용해 고품질의 합성 궤적(Synthetic Trajectories)을 생성하는 방식이 실무적인 대안으로 관찰된다. 학습된 모델이 생성한 가상 비디오 데이터를 다운스트림 로봇 학습의 훈련 데이터로 투입함으로써, 실제 데이터 수집량을 획기적으로 줄이면서도 다양한 작업 시나리오를 확보하는 파이프라인 구축이 가능하다. 이는 단순히 데이터 양을 늘리는 것을 넘어, 실제 환경에서 수집하기 위험하거나 드문 엣지 케이스를 가상으로 생성하여 로봇의 강건성을 높이는 전략으로 이어진다.
`pytorch_lora_weights.safetensors` 파일을 통해 가벼운 어댑터만 교체하는 전략은 배포 효율을 극대화한다. LoRA(Low-Rank Adaptation, 저차원 적응) 방식으로 학습된 가중치는 파일 크기가 매우 작아, 여러 도메인이나 서로 다른 로봇 하드웨어에 최적화된 어댑터들을 라이브러리화하여 상황에 맞게 빠르게 스위칭할 수 있다. 이는 단일 GPU 환경에서도 효율적인 파인튜닝을 가능하게 하며, 메모리 점유율을 낮추면서도 베이스 모델의 일반적 지식을 보존하는 효과를 준다. 구체적인 학습 프로세스는 다음과 같은 쉘 스크립트를 통해 실행된다.
bash train_cosmos_predict25_lora.sh현장에서 새로운 작업이 추가될 때마다 전체 모델을 다시 학습시킬 필요 없이, 소량의 데이터로 빠르게 어댑터만 추가 생성하여 배포하는 유연한 운영 체계를 이러한 구조가 제공한다.
추론 단계에서 발생하는 연산 오버헤드를 완전히 제거하기 위해 `fuse_lora` 함수를 사용하여 어댑터 가중치를 베이스 모델에 직접 병합하는 최적화 과정이 제안된다. 가중치 병합 후에는 LoRA 구조 특유의 추가 행렬 연산 과정이 사라지므로, 기본 모델과 동일한 추론 속도를 확보하여 실시간 응답성이 필수적인 로봇 제어 루프에 즉시 적용할 수 있다. 또한 GPU 아키텍처의 차이로 인해 발생하는 수치적 변동을 방지하고자 `arch_invariant_rand` 함수를 통해 초기 노이즈 생성의 재현성을 확보한다. 이는 하드웨어 구성이 다른 여러 대의 로봇 서버에서 동일한 시드값으로 일관된 합성 궤적을 생성해야 하는 품질 관리 및 검증 단계에서 핵심적인 역할을 한다. 최종적으로 생성된 합성 데이터의 품질은 다음 명령어를 통해 평가된다.
bash eval_cosmos_predict25_lora.sh




