텍스트 생성에 디퓨전 원리를 적용한 오픈 소스 모델 공개

LLM의 생성 속도가 느리거나 로컬 GPU 메모리가 부족해 발생하는 추론 병목 현상을 해결하기 위해 Google이 텍스트 생성에 디퓨전(diffusion, 데이터의 노이즈를 제거하며 생성하는 방식) 원리를 적용한 오픈 소스 실험적 모델 DiffusionGemma를 공개했다. 해당 모델은 Gemma 4 백본을 기반으로 구축되었으며 Apache 2.0 라이선스로 배포되어 상용 및 연구 목적의 활용이 가능하다. 특히 오픈 소스 vLLM(대규모 언어 모델 추론 및 서빙 최적화 라이브러리) 추론 플랫폼에서 네이티브하게 지원되는 최초의 디퓨전 언어 모델이라는 점이 특징이다.

GPU 환경에서의 텍스트 생성 속도는 표준 모델 대비 최대 4배 이상 향상되었다. vLLM 벤치마크 결과에 따르면 단일 Nvidia H100의 FP8 버전에서 초당 1,008토큰의 처리 속도를 보였으며, 하드웨어 사양을 Nvidia H200으로 상향할 경우 처리 성능은 초당 1,288토큰까지 올라간다. 이는 기존의 표준 자기회귀(autoregressive, 이전 토큰을 기반으로 다음 토큰을 예측하는 방식) 베이스라인과 비교했을 때 약 6배에 달하는 처리량이다.

256개 토큰 블록을 병렬로 생성하는 구조

DiffusionGemma는 한 글자씩 생성하는 순차적 방식에서 벗어나 256개의 토큰 블록을 한 번에 처리하는 병렬 구조를 택했다. 256개의 무작위 플레이스홀더 토큰으로 이루어진 빈 캔버스에서 시작해, 전체 블록을 대상으로 여러 번의 정제 과정을 거치며 문장을 완성한다. 확신이 낮은 위치의 토큰은 다음 단계에서 다시 평가하며 점진적으로 전체 문맥을 수렴시킨다.

블록 내의 모든 위치가 동시에 서로를 참조하는 구조는 양방향 문맥 이해를 가능하게 하며, 특정 토큰의 확신도가 떨어지면 즉시 재평가를 수행해 오류를 수정한다. 다만 Google은 이 모델의 출력 품질이 표준 Gemma 4보다 낮다는 점을 공식 블로그를 통해 명시했다. 최대 품질이 요구되는 작업에는 표준 모델을 사용하는 것이 적합하며, 코드 인필링처럼 문맥의 앞뒤를 동시에 고려해야 하는 특정 작업에 이 병렬 생성 방식을 활용하는 것이 효율적이다.

로컬 GPU 환경에 최적화된 하드웨어 효율성

DiffusionGemma는 26B Mixture of Experts(전문가 혼합) 구조를 통해 하드웨어 진입 장벽을 낮췄다. 전체 모델 규모는 26B에 달하지만 실제 추론 과정에서는 3.8B 파라미터만 선택적으로 활성화해 연산 효율을 높였다. 양자화 모델을 적용하면 Nvidia RTX 4090 및 5090을 포함한 소비자용 하드웨어의 18GB VRAM 내에 전체 모델을 탑재할 수 있어, 고사양 소비자용 GPU만으로도 대규모 모델의 추론 환경을 구축할 수 있다.

단일 사용자 환경의 추론 과정에서는 GPU의 연산 능력은 충분하지만 데이터를 주고받는 메모리 대역폭이 한계에 부딪혀 전체 속도가 저하되는 병목 현상이 발생한다. DiffusionGemma가 채택한 병렬 블록 생성 방식은 이러한 자원 불균형 상황에서 연산 효율을 높여 처리 성능을 실질적으로 끌어올리는 이점이 크다. 반면 수백 개의 요청을 동시에 배치 처리하는 고처리량 클라우드 서빙 환경에서는 이미 가용 연산 자원이 포화 상태이므로 병렬 디코딩을 도입하더라도 추가로 얻을 수 있는 성능 이득이 미미하다. 결과적으로 로컬 추론 및 저동시성(low-concurrency) 환경에 최적화된 구조다.

LLM의 생성 속도 저하와 로컬 GPU 메모리 부족은 추론 단계의 고질적인 병목이다. DiffusionGemma는 256개 토큰을 병렬 생성하여 H200 기준 초당 1,288토큰을 처리하며 이 한계를 돌파한다.

26B MoE 구조 중 3.8B 파라미터만 활성화하고 vLLM의 새로운 ModelState 인터페이스로 서빙되는 구조다. 로컬 환경의 저지연 추론이나 코드 인필링 같은 양방향 문맥 작업이 우선순위라면 도입 가치가 충분하다. 병렬 생성 방식이 메모리 대역폭 병목을 해결해 로컬 환경의 추론 효율을 높이는 실질적 대안이 된다.