매일 아침 강화학습(RL) 파이프라인을 돌리는 개발자들은 GPU 클러스터가 롤아웃 생성 단계에서 멈춰 서 있는 진행률 표시줄을 보며 시간을 보낸다. 수학적 추론이나 코드 생성처럼 검증 가능한 작업을 위해 언어 모델을 사후 학습시킬 때, 롤아웃 생성은 전체 학습 시간의 65%에서 72%를 차지하는 가장 큰 병목 구간이다. 최근 NVIDIA 연구팀은 이 문제를 해결하기 위해 추론 가속 기술인 추측 디코딩(Speculative Decoding, 작은 모델이 먼저 토큰을 제안하고 큰 모델이 검증하는 방식)을 NeMo RL(NVIDIA의 대규모 언어 모델 강화학습 프레임워크) 학습 루프 내부에 직접 통합하는 방안을 제시했다.

NeMo RL v0.6.0의 핵심 업데이트와 성능 데이터

NVIDIA는 이번 NeMo RL v0.6.0 릴리스를 통해 추측 디코딩을 공식 지원 기능으로 포함했다. 이번 업데이트에는 vLLM(대규모 언어 모델을 위한 고성능 추론 및 서빙 엔진) 백엔드, SGLang(구조화된 생성 언어 모델을 위한 추론 엔진) 백엔드, Muon(최신 최적화 알고리즘) 옵티마이저, YaRN(긴 문맥 학습을 위한 위치 임베딩 기법) 등이 함께 탑재되었다. 연구팀은 Qwen3-8B 모델을 활용해 RL-Think(추론 능력을 갖춘 모델을 지속 학습하는 작업)와 RL-Zero(기본 모델에서 추론을 처음부터 학습하는 작업) 두 가지 워크로드를 테스트했다. 그 결과, 32개의 GB200 GPU 환경에서 RL-Zero 기준 생성 지연 시간이 100초에서 56.6초로 단축되며 1.8배의 속도 향상을 기록했다. RL-Think의 경우 133.6초에서 87.0초로 줄어들어 1.54배의 속도 개선을 보였다. 전체 학습 단계로 환산하면 각각 1.41배와 1.35배의 속도 향상이 이루어진 셈이다.

기존 방식과의 차이점과 기술적 정밀도

예전에는 강화학습의 학습 충실도를 유지하기 위해 비동기 실행이나 저정밀도 롤아웃 같은 방식을 사용했지만, 이는 종종 학습 신호의 왜곡을 초래했다. 이제는 추측 디코딩을 통해 타겟 모델이 직접 생성했을 때와 수학적으로 동일한 출력 분포를 보장하면서도 속도만 높이는 것이 가능해졌다. 특히 NeMo RL은 두 경로 아키텍처를 도입해 이를 구현했다. 일반적인 모델을 위한 EAGLE-3(사전 학습된 모델을 위한 추측 디코딩 프레임워크) 경로와, 다중 토큰 예측(MTP) 헤드가 내장된 모델을 위한 네이티브 경로를 제공한다. 학습 중 정책이 업데이트될 때마다 드래프트 모델도 함께 적응해야 하는데, 이때 MegatronLM(NVIDIA의 대규모 언어 모델 학습 라이브러리) 검증기에서 생성된 숨겨진 상태와 로그 확률을 캐싱하여 드래프트 헤드를 지도함으로써 정책 기울기 신호가 오염되지 않도록 설계했다.

실무 적용을 위한 운영 전략과 결과

개발자가 바로 체감하는 변화는 드래프트 모델의 초기화와 길이 설정에 따라 성능이 극명하게 갈린다는 점이다. 연구팀은 범용 데이터셋보다 실제 강화학습 과정에서 발생하는 롤아웃 분포에 맞춰 드래프트 모델을 초기화했을 때 성능이 더 높다는 것을 확인했다. 또한 추측 길이(k) 설정이 중요한데, RL-Zero에서는 k=3일 때 1.77배의 속도 향상을 보였으나 k를 5 이상으로 늘리면 오히려 검증 오버헤드가 커져 성능이 역전되는 현상이 발생했다. 이는 단순히 추측을 많이 한다고 좋은 것이 아니라, 모델의 복잡도와 작업의 난이도에 맞는 최적의 지점을 찾는 것이 필수적임을 시사한다. n-gram(연속된 n개의 단어 단위) 기반의 모델 없는 추측 방식은 오히려 오버헤드로 인해 자동 회귀 방식보다 느려질 수 있다는 점도 실무자가 반드시 기억해야 할 지점이다.

이번 연구는 강화학습의 병목을 하드웨어가 아닌 알고리즘 최적화로 돌파할 수 있음을 증명했다.