텍스트 확산 방식을 적용한 실험적 오픈 모델
로컬 환경에서 LLM(거대언어모델)을 구동하는 개발자는 토큰 생성 속도가 느려 실시간 인터랙티브 앱을 구현하는 데 어려움을 겪는다. 이 지연을 해결하기 위해 텍스트 확산(text diffusion) 방식을 적용한 실험적 오픈 모델 DiffusionGemma가 공개되었다. Apache 2.0 라이선스로 배포되는 이 모델은 26B MoE(Mixture of Experts) 설계를 갖췄다. 전형적인 자기회귀(autoregressive) LLM의 순차적 토큰 처리 방식에서 벗어나, 256개 토큰으로 구성된 텍스트 블록 전체를 동시에 생성하는 접근법을 취한다.
기존 모델이 한 번에 하나의 토큰을 생성해 로컬 GPU(그래픽 처리 장치)나 TPU(텐서 처리 장치) 활용도가 낮았던 것과 대조적이다. DiffusionGemma는 프로세서에 더 큰 작업 단위를 한꺼번에 부여해 하드웨어 잠재력을 활용하며, 블록 단위 생성을 통해 연산 효율을 극대화했다. 이는 로컬 환경의 추론 지연 시간을 단축해 실시간 인터랙티브 서비스를 구현할 수 있는 기술적 기반을 제공한다.
전용 GPU 환경에서 텍스트 생성 속도가 최대 4배 향상되었다
DiffusionGemma는 전용 GPU 환경에서 추론 성능을 최대 4배까지 향상시켰다. 토큰을 하나씩 생성할 때 발생하는 고질적인 지연 시간을 블록 단위 동시 생성으로 해결해 GPU의 연산 자원 활용도를 높인 결과다.
다만 하드웨어 구조에 따라 가속 성능은 달라진다. Apple Silicon Mac과 같은 통합 메모리 아키텍처에서는 성능 향상이 제한적일 수 있다. DiffusionGemma의 속도 향상은 가속기의 높은 산술 강도(arithmetic intensity, 메모리 접근 대비 연산 횟수)를 활용하는 구조에 의존하기 때문이다. 연산 능력보다 메모리 대역폭에 의해 성능이 제한되는 환경에서는 Gemma 4와 같은 자기회귀 모델 대비 이점이 상쇄된다. 결과적으로 메모리 설계 방식과 데이터 전송 속도가 전용 GPU와 통합 메모리 환경의 성능 차이를 만든다.
이러한 하드웨어 특성에 따라 DiffusionGemma의 실제 활용 영역과 비용 효율성이 달라진다.
로컬 환경 최적화와 복잡한 논리 작업 수행 능력
DiffusionGemma는 고QPS(초당 쿼리 수) 클라우드 환경보다 로컬 추론 및 저동시성(low-concurrency) 환경의 대화형 워크플로우에 최적화되었다. 특히 속도가 핵심인 인라인 편집, 빠른 반복 작업, 비선형 텍스트 구조 생성 연구에 적합하다. 반면 대규모 요청을 처리하는 고QPS 클라우드 서빙 환경에서는 자기회귀 모델이 컴퓨팅 자원을 더 효율적으로 사용해 운영 비용이 낮다. DiffusionGemma의 병렬 디코딩 방식은 이 환경에서 효율성이 떨어져 서빙 비용을 상승시킨다.
특정 논리 작업에서는 구조적 이점이 명확하다. Unsloth(LLM 미세 조정 도구)는 DiffusionGemma를 미세 조정해 스도쿠 문제를 해결하는 실험을 진행했다. 스도쿠는 특정 칸의 숫자가 미래에 채워질 다른 칸의 숫자에 의존하므로, 순차적으로 토큰을 생성하는 자기회귀 모델은 수행에 어려움을 겪는다. 반면 DiffusionGemma는 양방향 어텐션(bi-directional attention)을 활용해 텍스트의 앞뒤 맥락을 동시에 참조한다. 이 구조는 미래 토큰에 의존하는 복잡한 논리 작업에서 순차적 모델보다 높은 성능을 낸다.
로컬 LLM의 추론 지연은 토큰을 순차적으로 생성하는 구조적 한계에서 기인한다. DiffusionGemma는 26B MoE 구조로 256토큰을 블록 단위로 동시 생성해 속도를 최대 4배 높였다.


