2048x.

이 숫자는 HiDream-O1-Image가 만들어내는 이미지의 가로세로 픽셀 크기를 말한다.

비유하자면 기존의 표준 사진첩을 넘어 대형 포스터를 한 번에 인쇄하는 수준의 정밀함이다.

그런데 이 고화질 결과물을 만들어내는 방식이 지금까지 우리가 알던 이미지 AI의 상식과는 완전히 다르다.

픽셀을 직접 다루는 통합 트랜스포머 구조

HuggingFace(AI 모델과 데이터셋을 공유하는 플랫폼)에 공개된 HiDream-O1-Image는 80억 개의 파라미터(인공지능의 학습 능력을 결정하는 매개변수)를 탑재했다. 이 모델의 핵심은 UiT(Unified Transformer, 텍스트와 이미지를 하나의 공유 토큰 공간에서 처리하는 통합 트랜스포머) 구조에 있다.

기존 모델들이 VAE(Variational Autoencoder, 이미지를 작은 잠재 공간으로 압축하는 도구)를 사용해 계산량을 줄였다면, 이 모델은 원본 픽셀을 직접 인코딩한다. 쉽게 말하면, 이미지를 작게 접어서 처리한 뒤 다시 펴는 과정 없이 처음부터 끝까지 펼쳐진 상태로 정밀하게 작업하는 방식이다. 텍스트 인코더를 따로 분리하지 않고 하나의 모델 내에서 텍스트와 이미지를 동시에 처리하는 방식을 채택했다.

개발자를 위해 두 가지 버전이 제공된다. 표준 모델인 HiDream-O1-Image는 50단계의 추론 과정을 거치며, Distillation(증류, 거대 모델의 지식을 작은 모델로 옮겨 효율을 높이는 기법) 과정을 거친 HiDream-O1-Image-Dev는 28단계만으로 빠르게 결과를 도출한다.

bash
pip install torch transformers accelerate
huggingface-cli download HiDream-ai/HiDream-O1-Image

python
from hidream_o1 import HiDreamPipeline

pipeline = HiDreamPipeline.from_pretrained("HiDream-ai/HiDream-O1-Image")
image = pipeline("A high-resolution cinematic shot of a futuristic city, 2048x2048").generate()
image.save("output.png")

추론 에이전트 탑재와 벤치마크 성능 비교

사용자가 모호하게 명령을 내려도 AI가 스스로 계획을 세우는 단계가 추가되었다. Reasoning-Driven Prompt Agent(추론 기반 프롬프트 에이전트)라는 장치를 탑재했는데, 이는 Google의 Gemma-4-31B-it 모델을 기반으로 작동한다. 비유하자면, 그림을 그리기 전에 어떤 배치를 하고 어떤 글자를 넣을지 설계도를 먼저 그리는 과정이 들어간 셈이다.

이 덕분에 다국어 텍스트를 이미지 속에 정확하게 삽입하는 능력이 크게 향상되어 상업적 디자인 작업에 유리해졌다. 복잡한 지시사항을 정확하게 반영하는 결과로 이어지며, 특히 레이아웃을 먼저 정의하고 생성하는 워크플로우를 통해 구도 오차를 획기적으로 줄였다.

성능 지표에서도 차이가 드러난다. Artificial Analysis Text to Image Arena(이미지 생성 AI의 성능을 비교하는 평가장)에서 8위를 기록하며 오픈 웨이트(모델의 가중치 값을 공개하여 누구나 사용할 수 있게 한 형태) 모델 중 최상위권에 올랐다. GenEval(구성적 생성 능력을 측정하는 벤치마크) 결과, 단일 객체 생성에서 0.98, 두 객체 생성에서 0.71의 점수를 기록했다.

이는 55억 파라미터 규모의 SD3-Medium(0.62)이나 80억 파라미터의 Emu3-Gen(0.54)보다 높은 수치다. 덩치가 비슷한 다른 모델들이 대략적인 형태를 잡을 때, 이 모델은 세밀한 부분까지 정확하게 짚어내는 능력을 갖춘 것이다. 결과적으로 개발자는 DiT(Diffusion Transformer, 확산 모델에 트랜스포머 구조를 결합한 방식) 기반의 거대 모델들과 경쟁할 수 있는 정밀한 제어권을 로컬 환경에서 확보하게 되었다.

압축이라는 편법을 버리고 픽셀이라는 본질로 돌아간 선택이 효율의 정점을 찍었다.