구글 딥마인드, 병렬 토큰 생성 모델 'DiffusionGemma' 공개

facts

구글 딥마인드가 공개한 DiffusionGemma는 기존 거대 언어 모델(LLM)의 핵심 방식인 순차적 토큰 생성을 탈피하고, 텍스트 생성에 확산 모델을 도입한 모델이다. 이 모델은 Gemma 4 26B A4B MoE(Mixture-of-Experts, 모델 전체 파라미터 중 일부만 활성화해 연산 효율을 높이는 구조) 아키텍처를 기반으로 구축되었다.

전체 파라미터 규모는 252억 개지만, 실제 추론 시 활성화되는 파라미터는 38억 개로 제한하여 메모리 점유율을 낮췄다. 모델의 세부 사양으로는 30개의 레이어와 1024 토큰의 슬라이딩 윈도우를 갖추고 있으며, 최대 25만 6천 토큰의 컨텍스트 길이를 지원한다. 어휘 사전 크기는 26만 2천 개이며, 라이선스는 Apache 2.0으로 공개되어 개발자가 자유롭게 활용할 수 있다.

how-it-works

기존의 자기회귀(Autoregressive) 방식이 토큰을 하나씩 순서대로 예측했다면, DiffusionGemma는 이산 텍스트 확산(Discrete Text Diffusion, 노이즈 상태에서 정답 토큰을 반복적으로 찾아가는 방식) 기술을 사용한다. 이 메커니즘은 '캔버스'라고 불리는 토큰 블록을 병렬로 생성하여 디코딩 속도를 높이는 것이 핵심이다. 캔버스의 길이는 256으로 설정되어 있다.

구조적으로는 인코더-디코더(Encoder-Decoder) 설계를 채택했다. 인코더는 프롬프트 문맥을 처리해 KV 캐시(Key-Value Cache, 이전 계산 값을 저장해 재사용하는 메모리 공간)를 생성하고, 디코더는 양방향 어텐션을 통해 생성 캔버스를 처리한다. 전문가 시스템은 총 128개 중 8개가 활성화되는 구조이며, 여기에 1개의 공유 전문가가 포함되어 연산 효율을 최적화한다.

입력 처리 범위는 텍스트에 국한되지 않는다. 약 5억 5천만 개의 파라미터를 가진 비전 인코더를 탑재하여 이미지와 비디오 입력까지 처리할 수 있는 멀티모달 능력을 갖췄다. 이를 통해 텍스트 생성 과정에 시각적 정보가 직접적으로 반영되는 파이프라인을 구성한다.

implementation-impact

개발자가 실무에서 체감하는 가장 큰 변화는 단일 가속기 환경에서의 저지연 고속 생성 능력이다. 멀티 캔버스 샘플링(Multi-canvas sampling, 여러 토큰 묶음을 동시에 생성하는 기법)을 통해 텍스트 생성의 순차적 병목을 제거했으므로, 실시간 응답이 필수적인 서비스 구현에 적합하다. 또한 설정 가능한 사고 모드(Thinking Mode)와 시스템 프롬프트 업데이트 기능을 통해 대화의 구조와 제어력을 높일 수 있다.

다만, 생성 속도를 높인 만큼 절대적인 추론 정확도에서는 기존 Gemma 4 모델과 트레이드오프(Trade-off)가 발생한다. 벤치마크 결과, DiffusionGemma는 대부분의 지표에서 Gemma 4보다 낮은 수치를 기록했다.

| 벤치마크 | DiffusionGemma 26B A4B | Gemma 4 26B A4B |

|---|---|---|

| MMLU Pro | 77.6% | 82.6% |

| AIME 2026 (no tools) | 69.1% | 88.3% |

| LiveCodeBench v6 | 69.1% | 77.1% |

| Codeforces ELO | 1429 | 1718 |

| GPQA Diamond | 73.2% | 82.3% |

| Tau2 (평균) | 56.2% | 68.2% |

| HLE (no tools) | 11.0% | 8.7% |

| HLE (with search) | 11.9% | 17.2% |

| BigBench Extra Hard | 47.6% | 64.8% |

| MMMLU | 81.5% | 86.3% |

특히 MMLU Pro에서 77.6%, AIME 2026에서 69.1%를 기록하며 Gemma 4(각각 82.6%, 88.3%)에 비해 추론 성능이 낮음을 확인할 수 있다. 반면 HLE(고난도 언어 평가) 도구 미사용 환경에서는 11.0%를 기록해 Gemma 4(8.7%)를 앞서는 결과가 나타났다.

결과적으로 최고 수준의 지능적 추론보다 압도적인 생성 속도와 효율적인 자원 활용이 우선되는 환경, 특히 로컬 환경에서 멀티모달 입력을 처리하며 빠른 응답을 구현해야 하는 사례에서 DiffusionGemma가 유효한 선택지가 된다.

구글 딥마인드, 병렬 토큰 생성 모델 'DiffusionGemma' 공개

facts

how-it-works

implementation-impact

관련 기사