추론 속도 6배, 정확도는 유지... 엔비디아 '트라이-모드' 디코딩의 실체

16.05%는 엔비디아(NVIDIA) 연구진이 Nemotron-Labs-Diffusion의 전체 학습 파이프라인을 통해 베이스라인 대비 달성한 평균 정확도 향상 수치다. 단순히 모델의 크기를 키워 성능을 올리는 기존의 방식에서 벗어나, 학습 구조의 효율화를 통해 지능과 속도라는 두 마리 토끼를 동시에 잡았다는 점이 핵심이다. 마치 엔진의 배기량을 늘리지 않고도 정밀한 튜닝만으로 출력과 연비를 모두 개선한 고성능 스포츠카의 진화와 같다. 이 수치의 이면에는 텍스트를 생성하는 근본적인 방식인 '디코딩' 구조를 완전히 재설계하려는 엔비디아의 전략이 담겨 있다.

GPU의 병렬 연산 능력을 충분히 활용하지 못하는 기존 자기회귀(Autoregressive, AR) 모델의 고질적인 문제는 토큰을 하나씩 순차적으로 생성해야 한다는 구조적 제약에서 비롯된다. 배치 사이즈가 작은 단일 사용자 환경이나 엣지 디바이스 배포 시 하드웨어 이용률이 급격히 떨어지는 현상이 관찰되는 이유다. 반면 디퓨전(Diffusion) 기반 모델은 여러 토큰을 동시에 생성해 처리량을 높일 수 있지만, 정확도가 AR 모델에 비해 현저히 낮다는 한계가 있었다. 엔비디아는 이 두 가지 상충하는 접근법을 하나의 아키텍처로 통합함으로써, 상황에 따라 최적의 디코딩 모드를 선택할 수 있는 '트라이-모드(Tri-Mode)' 언어 모델 제품군을 제안한다.

3B부터 14B까지, 단일 가중치로 구현한 Nemotron-Labs-Diffusion

3B, 8B, 14B의 세 가지 파라미터 규모로 구성된 모델 라인업이 이번에 공개되었다. 단일 가중치로 세 가지 디코딩 모드를 모두 지원하는 이 제품군은 사용자의 요구 사양에 따라 베이스(Base), 인스트럭트(Instruct), 그리고 시각-언어 모델인 VLM(Vision-Language Model) 변체로 나누어 제공된다. 단일 모델 파일만으로 서비스 환경의 제약이나 요구 성능에 맞춰 추론 방식을 유연하게 변경할 수 있는 구조를 갖췄다는 점이 특징이다. 특히 VLM 변체는 텍스트뿐만 아니라 이미지 정보를 함께 처리하는 멀티모달 능력을 동일한 프레임워크 내에서 구현하여, 시각 정보 처리 시에도 효율적인 디코딩 모드 전환이 가능하도록 설계되었다.

NVIDIA H100 GPU 256장을 투입한 고성능 인프라 위에서 총 2단계에 걸친 학습 파이프라인이 수행되었다. 1단계에서는 1조 개의 토큰을 사용하여 AR(Autoregressive, 자기회귀) 학습을 수행함으로써 모델이 자연어의 기본적인 좌우 문맥 구조와 언어적 사전 지식을 충분히 확보하게 했다. 이후 2단계에서는 3,000억 개의 토큰을 추가로 투입하여 AR과 디퓨전(Diffusion) 목적 함수를 동시에 최적화하는 조인트 학습을 진행했다. 이러한 단계적 접근은 모델이 먼저 강력한 언어적 기초를 다진 후 병렬 디코딩 능력을 습득하게 함으로써, 기존 디퓨전 모델들이 겪었던 정확도 저하 문제를 해결하고 최종적인 성능을 끌어올리는 핵심 기제로 작용했다.

복잡한 지시어 이행 능력과 추론 효율성 사이의 최적 균형점을 찾기 위해, 인스트럭트 모델은 베이스 모델 위에 450억 개의 토큰을 활용한 SFT(Supervised Fine-Tuning, 지도 미세 조정)를 추가로 수행했다. 이 과정에서도 AR과 디퓨전의 조인트 목적 함수를 동일하게 적용하여 실무 적용을 위한 최적화를 마쳤다. 이렇게 구축된 모델과 전체 학습 및 추론 파이프라인은 메가트론 브릿지(Megatron Bridge)를 통해 공개되어 개발자가 실제 프로덕션 환경에 빠르게 배포하고 최적화할 수 있도록 설계되었다. 이는 단순한 가중치 공개를 넘어 대규모 모델의 학습부터 배포까지 이어지는 전체 엔지니어링 경로를 함께 제시함으로써, 연구 성과가 실제 코드 수준의 구현으로 빠르게 전이될 수 있는 기반을 마련했다.

AR과 디퓨전의 결합, '조인트 학습'과 셀프-스펙큘레이션의 원리

토큰을 하나씩 순차적으로 생성하는 오토레그레시브(Autoregressive, AR) 모델은 GPU의 병렬 연산 능력을 충분히 활용하지 못하는 구조적 한계가 있다. 반면 디퓨전(Diffusion) 모델은 여러 토큰을 동시에 디노이징하여 생성 속도를 높일 수 있지만, 언어의 좌-우 방향성을 무시하는 특성 탓에 정확도가 떨어진다는 고질적인 문제가 관찰된다. 엔비디아는 이 두 방식의 장점을 단일 모델 내에 통합하기 위해 조인트 학습(Joint Training) 방식을 도입했다. 학습 목적 함수는 다음과 같이 정의된다.

\mathcal{L}(\theta) = \mathcal{L}_{AR}(\theta) + \alpha \cdot \mathcal{L}_{diff}(\theta)

알파(\alpha) 값은 0.3으로 설정되었으며, 이는 AR 모드와 디퓨전 모드 모두에서 정확도가 정점에 도달하는 최적의 지점으로 분석된다. 이러한 통합 손실 함수를 통해 모델은 AR의 강력한 언어적 사전 지식과 디퓨전의 병렬 처리 능력을 동시에 습득한다. 특히 1조 개의 토큰으로 AR 학습을 먼저 진행한 뒤, 3,000억 개의 토큰으로 조인트 학습을 수행하는 2단계 전략을 통해 기본 성능을 16.05% 향상시키는 결과가 도출되었다.

어텐션 패턴의 변경만으로 모드를 전환하는 구조가 모델의 내부 동작을 결정한다. AR 모드에서는 표준적인 인과적 어텐션(Causal Attention)을 사용하여 좌-우 방향으로 토큰을 생성하며, 이는 고도의 정확도가 필요한 클라우드 서빙 환경에 적합하다. 디퓨전 모드에서는 시퀀스를 고정 길이 블록으로 나누고, 블록 내부에서는 양방향 어텐션을 통해 여러 토큰을 병렬로 디노이징한다. 이때 블록 간에는 여전히 인과적 어텐션을 유지함으로써 이전 블록에서 생성된 KV 캐시(Key-Value Cache, 이전 토큰의 연산 결과 저장소)를 그대로 재사용할 수 있게 하여 연산 낭비를 최소화했다.

셀프-스펙큘레이션(Self-speculation) 구조는 이 모델의 가장 핵심적인 메커니즘이다. 디퓨전 경로가 후보 토큰들을 초안(Draft)으로 빠르게 생성하면, AR 경로가 이를 검증(Verify)하여 최종 확정하는 내부 루프를 구축한 방식이다. 일반적인 스펙큘레이티브 디코딩이 별도의 작은 드래프트 모델이나 예측 헤드를 추가하여 복잡도를 높이는 것과 달리, 이 구조는 단일 모델의 가중치를 공유하며 추론 시의 경로만 다르게 사용한다. 디퓨전 경로가 k개의 후보 토큰을 병렬로 제안하면, AR 경로가 인과적 어텐션을 통해 이 후보들이 실제 AR 예측값과 일치하는지 확인하여 가장 긴 연속 접두사를 확정한다. 이 과정을 통해 매 사이클마다 최소 1개에서 최대 k+1개의 검증된 토큰을 생성하는 고효율 구조를 구현했다.

Qwen3-8B 대비 6배의 TPF, 기존 MTP 방식과의 성능 격차

GB200 GPU 환경의 처리량에서 개발팀이 공개한 수치는 극명하게 갈린다. NLD-8B 모델의 선형 자기 투기(linear self-speculation) 모드는 Qwen3-8B 대비 4배 높은 처리량을 기록했다. 이는 NLD-8B의 기본 AR(Autoregressive, 자기회귀) 모드와 비교해도 3.3배에서 3.97배까지 속도가 향상된 결과다. 특히 한 번의 순전파당 생성되는 토큰 수인 TPF(Tokens Per Forward) 측면에서 Qwen3-8B 대비 최대 6배의 효율을 달성하며 단순한 병렬 생성을 넘어선 실질적인 추론 가속을 증명했다. 이러한 속도 향상은 GB200뿐만 아니라 RTX Pro 6000과 DGX Spark 환경에서도 각각 2.3배, 1.8배의 성능 우위를 보이며 하드웨어 범용성을 입증했다.

수락 길이(Acceptance Length)의 차이가 이러한 성능 격차의 핵심이다. 수락 길이는 투기적으로 생성된 토큰 중 실제 정답으로 인정되는 토큰의 평균 개수를 의미한다. NLD-LoRA(Low-Rank Adaptation, 저차원 적응)를 적용한 모델은 6.82의 수락 길이를 기록하며 Qwen3-9B-MTP(Multi-Token Prediction, 다중 토큰 예측)의 4.24, Eagle3의 2.75를 크게 앞섰다. 기존 MTP 방식이 AR 백본에 작은 보조 예측 헤드를 부착하는 구조였다면, NLD는 내부 디퓨전 경로를 통해 후보를 생성하고 AR 경로로 검증하는 일체형 구조를 취한다. 특히 코딩, 수학, 추론, 다국어 작업과 같이 구조적 패턴이 강한 영역에서는 NLD-LoRA가 8.69의 수락 길이를 기록해 Eagle3의 2.81보다 압도적인 효율을 보였다.

정확도와 속도의 트레이드오프 관계에서도 유의미한 결과가 관찰된다. NLD-14B 모델에 LoRA를 적용해 5.96배의 TPF를 구현했을 때 정확도는 66.36%를 기록했다. 이는 Qwen3-14B 모델이 AR 모드에서 보여준 65.17%보다 오히려 높은 수치로, 추론 속도를 극단적으로 높이면서도 모델의 기본 품질을 유지하거나 오히려 개선할 수 있음을 시사한다. 이론적 상한선인 SOL(Speed-of-Light) 분석에 따르면 블록 길이 32에서 평균 7.60배의 TPF가 가능하며, 코딩 및 다국어 작업 시에는 10배를 초과하는 잠재적 효율성을 보유하고 있음이 확인된다. 현재의 신뢰도 기반 샘플링은 유사 정확도에서 약 3배의 TPF를 달성하고 있어, 이론적 한계치인 SOL까지는 여전히 상당한 최적화 공간이 남아있다는 점이 관찰된다.

LoRA 어댑터 0.4%의 마법, 추론 처리량의 비약적 상승

이번 연구에서는 모델의 전체 파라미터를 건드리지 않고도 추론 속도를 극적으로 끌어올리는 LoRA(Low-Rank Adaptation)의 효율이 다시 한번 증명된다. 연구진은 확산 모델 기반의 초안 생성 경로와 자기 회귀(AR) 검증 경로 사이의 정렬을 최적화하기 위해 어텐션 모듈 내 o_proj 레이어만을 타겟으로 하는 LoRA 어댑터를 도입했다. 이때 사용된 rank는 128, 알파 값은 512로 설정되었으며, 이는 전체 백본 파라미터의 0.4%에 불과한 약 36M 개의 학습 가능 파라미터만을 조정하는 방식이다. 이러한 미세 조정은 모델의 본질적인 정확도를 0.1% 미만의 오차 범위 내로 유지하면서도, 추론 시 토큰 처리량(TPF, Tokens Per Forward)을 비약적으로 높이는 결과를 낳았다.

모델 규모에 따라 LoRA 적용 후 TPF 향상률은 3B 모델에서 14.4%, 8B 모델에서 32.5%, 14B 모델에서 27.6%로 관찰된다. 특히 시각-언어 모델인 Nemotron-Labs-Diffusion-VLM-8B에 이 방식을 적용했을 때, 3.63배에서 최대 7.45배에 달하는 TPF 개선이 확인되었다. 이는 단순히 속도만을 높인 것이 아니라, 기존의 선형 자기 추측(Linear Self-speculation) 방식이 가진 한계를 정교하게 돌파했음을 의미한다. 실무 환경에서 추론 엔진의 병목을 해결하고자 하는 엔지니어들에게, 이 0.4%의 어댑터는 모델을 교체하지 않고도 처리 효율을 극대화할 수 있는 실질적인 레버리지로 작용한다.

라이브러리 의존성과 모델 로딩 방식은 실제 구현 과정에서 개발자가 유의해야 할 지점이다. 해당 모델은 Hugging Face의 체크포인트와 함께 커스텀 모델링 코드가 번들로 제공되므로, 모델을 불러올 때 반드시 trust_remote_code=True 옵션을 활성화해야 한다. 또한, LoRA를 활용한 자기 추측 모드를 구동하기 위해서는 peft 라이브러리의 설치가 필수적이다. 아래는 실무 환경에서 LoRA 어댑터를 적용하여 추론 파이프라인을 구성할 때의 기본적인 설정 맥락을 보여준다.

python

LoRA 어댑터 적용을 위한 환경 설정 예시

from peft import PeftModel

from transformers import AutoModelForCausalLM

모델 로딩 시 커스텀 코드 실행 허용

model = AutoModelForCausalLM.from_pretrained(

"nvidia/nemotron-labs-diffusion-8b",

trust_remote_code=True

)

LoRA 어댑터가 포함된 경우 peft를 통한 병합

model = PeftModel.from_pretrained(model, "path/to/lora_adapter")

추론 시점에 어텐션 패턴을 변경하는 것만으로 모드 전환이 가능한 모델 구조와 결합하여, 이러한 접근은 인프라 운영의 유연성을 극대화한다. 기존의 Eagle3와 같은 보조 드래프트 모델을 별도로 관리해야 하는 복잡성에서 벗어나, 단일 가중치 세트 내에서 LoRA 어댑터만 교체하거나 활성화하는 것만으로도 성능 최적화를 달성할 수 있기 때문이다. 결국 0.4%의 파라미터 조정은 모델의 경량화와 속도 향상이라는 두 마리 토끼를 잡아야 하는 현장의 요구를 정확히 관통하고 있으며, 향후 6개월 내 실무 코드베이스에서 추론 엔진의 표준 최적화 경로로 자리 잡을 가능성이 크다.

엣지 AI와 고성능 서빙 사이의 최적점, 한국 실무자가 주목할 지점

고동시성 클라우드 서빙 환경과 단일 사용자가 사용하는 엣지 디바이스 환경에서 요구되는 연산 효율은 완전히 다르다. 전자의 경우 수많은 요청을 동시에 처리하며 처리량을 극대화해야 하므로 표준적인 AR(Autoregressive, 자기회귀) 모드가 가장 적합한 선택지로 관찰된다. 반면 단일 사용자 환경이나 엣지 디바이스에서는 배치 사이즈가 매우 작기 때문에, 토큰을 하나씩 생성하는 AR 방식으로는 GPU의 병렬 연산 능력을 충분히 활용하지 못하고 하드웨어 이용률이 낮아지는 고질적인 문제가 발생한다. 이를 해결하기 위해 엣지 환경에서는 여러 토큰을 동시에 생성하는 디퓨전(Diffusion) 모드나, 초안을 생성하고 검증하는 셀프-스펙큘레이션(Self-speculation) 모드를 적용하는 전략이 제안된다. 실제로 NVIDIA의 GB200부터 RTX Pro 6000, DGX Spark에 이르기까지 다양한 하드웨어 가속기에서 각 모드에 최적화된 성능이 확인되었으며, 이는 인프라의 성격에 따라 최적의 디코딩 경로를 선택함으로써 자원 낭비를 최소화할 수 있음을 시사한다.

모델 파일 자체를 교체하는 무거운 작업 없이도 이러한 모드 전환이 가능하다는 사실은 실무 개발자가 코드 수준에서 주목해야 할 지점이다. 일반적으로 서로 다른 디코딩 방식을 구현하려면 별도의 모델을 배포하거나 복잡한 래퍼를 씌워야 하지만, 이 구조에서는 추론 시점에 어텐션 패턴(Attention Pattern)을 변경하는 것만으로 모드 스위칭이 이루어진다. 동일한 가중치를 공유하면서 연산 경로만 바꾸는 방식이기에 메모리 점유율을 높이지 않고도 환경에 맞는 최적의 성능을 끌어낼 수 있다. 또한 실제 서비스에 적용했을 때의 효율성을 정밀하게 측정하기 위해 출력 ID와 함께 반환되는 nfe(num function evals, 함수 평가 횟수) 값을 모니터링 지표로 활용할 수 있다. nfe 값은 특정 결과물을 내놓기 위해 실제로 수행된 포워드 패스(Forward Pass)의 횟수를 정확히 기록하므로, 디코딩 모드 변경이 실제 연산 횟수를 얼마나 줄였는지, 그리고 그것이 응답 속도 개선으로 어떻게 이어졌는지 데이터 기반으로 검증할 수 있다.

한국의 AI 서비스 시장처럼 제한된 GPU 인프라 내에서 사용자 경험(UX)과 운영 비용의 균형을 정밀하게 맞춰야 하는 실무 환경에서 이러한 가변적 디코딩 전략은 매우 강력한 도구가 된다. 클라우드 서버에서는 처리량 극대화에 집중하여 서버 비용을 절감하고, 온디바이스 AI 환경에서는 개별 사용자가 느끼는 토큰 생성 속도를 높여 서비스 만족도를 개선하는 이원화 전략이 가능하기 때문이다. 특히 모델의 파라미터 규모와 상관없이 단일 가중치 세트가 세 가지 모드를 모두 지원한다는 점은 모델 버전 관리와 배포 파이프라인의 복잡도를 획기적으로 낮추는 이점을 제공한다. 결국 배포 대상 하드웨어의 특성과 현재의 트래픽 상황에 따라 디코딩 모드를 동적으로 선택하는 로직을 서빙 레이어에 구현한다면, 하드웨어의 물리적 한계를 소프트웨어적인 유연함으로 극복하는 실무적 성과를 거둘 수 있을 것으로 보인다.