마침내 사라진 업스케일링 단계, 엔비디아 PiD의 4K 직행

4배. 엔비디아의 새로운 디코더 PiD가 512 픽셀의 잠재 이미지를 2048 픽셀로 한 번에 확장하는 수치다. 작은 사진을 억지로 늘려 픽셀이 깨지는 기존 방식이 아니라, 처음부터 고해상도로 그려내는 수준이다. 그런데 이번 기술의 핵심은 단순한 확대가 아니라 이미지 생성의 마지막 관문인 '디코딩' 자체를 완전히 뜯어고쳤다는 점에 있다.

기존 AI 이미지 생성은 저해상도 이미지를 먼저 만들고 이를 다시 키우는 업샘플링 과정을 따로 거쳤다. 이 과정에서 모델 간의 불일치로 인해 이미지가 뭉개지거나 왜곡되는 아티팩트 현상이 빈번했다. 엔비디아는 이 두 단계를 하나로 합쳐 픽셀 공간에서 직접 노이즈를 제거하는 방식을 택했다. 이제 개발자는 복잡한 모델 체인을 연결할 필요 없이 단 한 번의 생성 모듈로 4K 고해상도 결과물을 얻는다. 이는 단순한 속도 향상을 넘어 이미지 생성 파이프라인의 구조적 단순화를 의미한다. 고품질 디지털 콘텐츠 제작 환경에서 후처리 공정이 사라지면 실시간성에 가까운 고해상도 출력이 가능해진다. 엔비디아가 제시한 이 새로운 표준은 이미지 생성의 최종 단계인 디코딩을 단순 변환이 아닌 '생성적 프로세스'로 전환했다.

4단계 증류와 4K 해상도 구현 구조

고해상도 이미지를 얻기 위해 지불하는 비용은 대개 연산 시간과 하드웨어 자원이다. 기존 생성 AI는 잠재 확산 모델(LDM)로 저해상도 이미지를 먼저 만든 뒤 별도의 업샘플링 모델을 거치는 2단계 구조를 가졌다. 엔비디아의 PiD(Pixel Diffusion Decoder, 픽셀 확산 디코더)는 이 과정을 하나로 합쳤다. 디코딩과 업샘플링을 조건부 픽셀 공간 확산 모델이라는 단일 생성 모듈로 통합한 결과다. 잠재 공간의 데이터를 픽셀로 변환하는 디코더 자체를 생성 모델로 설계해 고해상도 픽셀 공간에서 직접 노이즈를 제거한다. 연산 효율을 극대화하기 위해 4단계 증류(4-step distilled) 기술을 적용했다. 거대 모델이 가진 지식을 작은 모델에 압축해 추론 속도를 높인 체크포인트를 제공한다.

해상도 구현 수치는 모델 변형에 따라 구체적으로 나뉜다. 2k 변형 모델은 512 픽셀의 잠재 확산 모델을 2048 픽셀로 변환하는 4배 초해상도(SR) 방식으로 작동한다. 여기서 Scale-RAE(확장 가능한 상대적 오토인코더) 백본(Backbone, 핵심 신경망 구조)을 사용하면 변환 폭이 더 커진다. 256 픽셀의 입력값을 2048 픽셀로 변환하는 8배 초해상도 구현이 가능하다. 입력값의 잠재 표현을 픽셀로 복원하는 과정에서 손실되는 정보를 생성적 방식으로 보완한다. 이는 디코더가 단순히 픽셀 수를 늘리는 보간법이 아니라, 픽셀 공간에서 확산 프로세스를 수행하며 세부 묘사를 채워 넣기 때문이다. 입력 해상도가 낮을수록 디코더가 생성해야 할 정보량이 많아지며 이를 Scale-RAE가 효율적으로 처리한다.

4K 해상도 진입은 2kto4k 변형 모델이 담당한다. 이 모델은 1024 픽셀의 잠재 확산 모델을 4096 픽셀까지 확장하는 데 최적화되어 있다. 성능 최적화를 위해 다중 해상도 데이터 버케팅(Data Bucketing, 데이터를 해상도별로 묶어 학습시키는 기법) 기술을 적용했다. 데이터 버케팅은 학습 단계에서 해상도별 최적의 배치 크기를 유지하게 하여 학습 안정성을 높인다. 여기에 SD3 스타일의 동적 시프트 기술을 더해 픽셀 공간의 좌표 정보를 정밀하게 제어한다. 고해상도 출력 시 발생하는 연산 부하를 제어하면서 픽셀 밀도를 유지하는 구조다. 결과적으로 별도의 후처리 모델 없이 단 한 번의 생성 과정으로 4K 이미지를 출력하는 경로를 확보했다.

Flux·SD3 호환성과 파이프라인 단축 효과

지금까지는 고해상도 이미지를 얻기 위해 모델이 생성한 결과물을 별도의 업스케일러에 다시 통과시키는 방식이 당연하게 여겨졌다. 하지만 개발자들은 생성과 확대라는 두 단계의 파이프라인이 서로 다른 연산 구조를 가져 결과물에 왜곡이 발생하는 현상을 매번 감수해야 했다. 이번에 공개된 PiD는 이 과정을 하나의 생성 모듈로 통합하여, 잠재 공간에서 픽셀 공간으로 넘어가는 디코딩 단계에서 직접 초해상도 작업을 수행한다. 이는 기존의 다단계 파이프라인을 단일화하여 연산 효율과 이미지 정밀도를 동시에 확보하려는 시도다.

PiD는 다양한 인코더 백본과 유연하게 결합하도록 설계되어 기존 생태계와의 호환성을 극대화했다. 구체적으로 Flux1-dev의 16채널 변분 오토인코더(VAE, 잠재 공간과 픽셀 공간을 연결하는 신경망)와 Flux2-dev의 128채널 배치 정규화(BN) VAE를 모두 지원한다. 또한 SD3 medium의 16채널 VAE와도 즉시 호환된다. 외부 인코더를 활용하는 환경에서도 DINOv2-B와 RAE 비전 트랜스포머(ViT, 이미지의 특징을 추출하는 신경망) XL 조합의 768채널, SigLIP-2 So400M과 Scale-RAE ViT XL 조합의 1152채널 환경을 지원한다. 이러한 폭넓은 호환성은 특정 모델에 종속되지 않고 기존의 생성 워크플로우를 그대로 유지하면서 고해상도 출력이라는 결과값만 개선할 수 있게 한다.

실무 환경에서의 관리 효율성 또한 높였다. 모든 체크포인트는 지수 이동 평균(EMA) 가중치가 브레인 플로팅 포인트 16(bfloat16, 연산 효율을 높인 16비트 부동소수점 형식)으로 변환된 model_ema_bf16.pth 파일 형태로 제공된다. 특히 Z-Image 모델은 Flux1의 VAE를 그대로 공유하므로 별도의 체크포인트를 추가로 설치할 필요 없이 기존 Flux 체크포인트를 재사용할 수 있다. 개발자는 HuggingFace(인공지능 모델 공유 플랫폼)를 통해 각 백본별 가중치를 다운로드하여 즉시 적용할 수 있다. 다만 해당 기술은 NSCLv1 라이선스를 따르며, 비상업적 연구 및 평가 목적으로만 사용이 제한된다는 점을 유의해야 한다.

이러한 구조적 변화는 단순한 기능 확장을 넘어 이미지 생성의 최종 단계를 생성적 프로세스로 전환했다는 점에 주목해야 한다. 기존처럼 여러 모델을 체인 형태로 연결할 때 발생하던 아티팩트(이미지 왜곡 현상)를 원천적으로 차단하며, 4단계의 짧은 추론만으로 4K 해상도까지 직접 도달하는 경로를 구축했다. 이는 고품질 디지털 콘텐츠 제작 현장에서 후처리 과정을 생략하고 즉각적인 고해상도 출력을 가능하게 만드는 실질적인 변화를 이끈다. 파이프라인의 단순화는 곧 관리해야 할 체크포인트의 감소와 추론 속도의 향상으로 직결되며, 이는 고해상도 이미지 생성의 새로운 표준으로 자리 잡을 가능성이 크다.

PiD는 저해상도 생성 후 확대하는 기존의 2단계 공정을 하나로 합쳤다. 연산 낭비를 줄이면서 결과물의 정밀도를 동시에 높였다. 하드웨어 자원을 효율적으로 사용하며 고화질을 구현하는 방식이다.

이는 단순한 성능 개선을 넘어 영상 생성 AI의 표준 공정을 재정의하는 시도다. 고해상도 직행 기술의 보유 여부가 향후 AI 영상 서비스의 운영 비용과 수익성을 결정한다.

마침내 사라진 업스케일링 단계, 엔비디아 PiD의 4K 직행

4단계 증류와 4K 해상도 구현 구조

Flux·SD3 호환성과 파이프라인 단축 효과

관련 기사