토큰 1,000개/초 돌파, 엔비디아가 가속한 DiffusionGemma

한 글자씩 출력하는 자기회귀 방식의 지연 문제

현재 널리 사용되는 대부분의 대규모 언어 모델(LLM)은 자기회귀(Autoregressive) 방식을 채택하고 있다. 이 방식은 모델이 이전 토큰에 의존해 다음 단어를 한 번에 하나씩 순차적으로 생성하는 구조다. 이러한 순차적 처리 과정은 인터랙티브 AI가 마치 사람이 타이핑하는 것처럼 한 글자씩 출력되는 현상을 만든다. 사용자는 AI의 답변이 완성될 때까지 대기해야 하며, 이는 실시간 응답이 필요한 환경에서 물리적인 지연 요소로 작용한다. 특히 단일 사용자가 수행하는 채팅이나 에이전트 루프 작업에서 이러한 생성 속도의 한계는 개발자의 반복적인 테스트 주기를 늦추는 병목 지점이 된다.

256토큰 블록 단위의 병렬 생성 방식 도입

구글 딥마인드(Google DeepMind)가 텍스트 생성 속도를 극대화한 실험적 오픈 모델 DiffusionGemma를 출시했다. DiffusionGemma는 텍스트를 한 토큰씩 생성하는 기존 방식에서 벗어나 최대 256토큰의 블록 단위를 병렬로 생성한다. 모델이 한 번의 연산으로 여러 단어를 동시에 출력함으로써 텍스트 생성의 단위를 개별 토큰에서 블록으로 전환했다. 이러한 병렬 생성 구조는 개발자, 연구자, AI 애호가들이 매일 사용하는 단일 사용자 워크로드에서 응답 지연 시간을 획기적으로 낮춘다. 결과적으로 인터랙티브 채팅이나 온디바이스 어시스턴트가 계획을 세우고 행동하는 과정에서 사용자의 사고 속도에 맞춘 빠른 응답을 제공한다.

Gemma 4 26B MoE 기반의 디퓨전 텍스트 생성

DiffusionGemma는 Gemma 4 26B MoE(Mixture-of-Experts) 아키텍처를 기반으로 설계되었다. 이 모델은 이미지 생성 AI에서 사용하는 디퓨전(Diffusion) 메커니즘을 텍스트 생성 영역에 적용했다. 텍스트를 순차적으로 쓰는 대신 무작위 노이즈 상태에서 시작해 전체 텍스트 블록을 한 번에 정제하는 방식을 사용한다. 각 단계에서 최대 256개의 토큰을 병렬로 디노이징(Denoising)하여 텍스트 뭉치를 명확한 문장으로 복원한다. 이는 모델이 토큰을 하나씩 내뱉고 다음 계산을 기다리는 것이 아니라, 블록 단위로 생각하고 출력하는 구조를 가능하게 한다.

컴퓨팅 바운드 전환을 통한 4배 빠른 추론 속도

엔비디아(NVIDIA)는 DiffusionGemma가 지포스 RTX GPU, RTX PRO 플랫폼, DGX Spark 시스템에서 최적의 성능을 내도록 가속화했다. 기존 LLM은 데이터를 메모리에서 연산 장치로 가져오는 속도가 느려 연산 자원이 낭비되는 메모리 바운드(Memory-bound) 문제가 발생했다. DiffusionGemma는 256토큰 블록을 한 번에 처리함으로써 워크로드를 컴퓨팅 바운드(Compute-bound) 형태로 전환했다. NVIDIA 텐서 코어(Tensor Core)가 고밀도 병렬 수학 연산을 가속하고 CUDA 소프트웨어 스택이 효율적인 구동을 지원한다. 그 결과 NVIDIA H100 GPU에서 초당 1,000토큰, DGX Spark에서 초당 150토큰의 생성 속도를 기록했으며, 이는 동일 조건의 자기회귀 모델 대비 약 4배 빠른 추론 속도다.

로컬 AI 실무 도입을 위한 툴체인과 확장 생태계

엔비디아와 파트너사들은 DiffusionGemma의 빠른 배포를 위해 통합 툴체인을 제공한다. Hugging Face Transformers는 지포스 RTX 5090 및 DGX Spark에서 모델이 즉시 구동되도록 지원하며, vLLM은 고처리량 추론을 위한 서빙 기능을 제공한다. 모델의 특정 도메인 최적화를 위해 Unsloth와 NVIDIA NeMo 프레임워크를 통한 파인튜닝 환경을 구축했으며, build.nvidia.com에서 호스팅 API를 통해 무료 테스트가 가능하다. 또한 엔비디아 연구진은 2.6B 파라미터 규모의 SANA-WM 월드 모델을 공개해 RTX 5090에서 60초 영상을 34초 만에 생성하는 성능을 구현했다. 윈도우 에이전트 환경을 위해 마이크로소프트 익제큐션 컨테이너와 NVIDIA OpenShell 런타임을 출시했으며, DGX Spark 클러스터 어시스턴트를 통해 최대 4대의 유닛을 연결해 512GB 메모리 풀을 구성함으로써 4,000억 파라미터 규모의 모델까지 수용할 수 있는 인프라를 확보했다.