AI 이미지 생성 기술은 놀라운 속도로 발전했지만 여전히 해결하지 못한 숙제가 있었다. 바로 이미지 속에 정확한 글자를 새겨 넣는 텍스트 렌더링과 복잡한 구도를 제어하는 능력이다. 많은 모델이 화려한 그림을 그려내지만 정작 중요한 안내 문구에서 오타를 내거나 여러 객체의 위치 관계를 엉망으로 배치하는 경우가 많았다. 이러한 한계를 극복하기 위해 Baidu의 ERNIE-Image 팀이 새로운 해결책을 제시하며 등장했다.

기술적 사양과 모델 구조의 특징

ERNIE-Image는 확산 트랜스포머(Diffusion Transformer, 이미지 생성에 트랜스포머 구조를 결합한 방식)라는 단일 스트림 구조를 기반으로 설계되었다. 이 모델의 가장 큰 특징은 80억 개의 파라미터라는 비교적 가벼운 규모를 유지하면서도 강력한 성능을 낸다는 점이다. 특히 사용자가 입력한 짧은 명령어를 풍부하고 구조적인 묘사로 확장해 주는 프롬프트 강화 도구(Prompt Enhancer, 짧은 입력을 상세한 묘사로 확장하는 장치)를 탑재해 생성 품질을 높였다.

모델은 두 가지 버전으로 제공된다. 먼저 ERNIE-Image는 지도 미세 조정(Supervised Fine-Tuning, 정답 데이터를 통해 모델을 최적화하는 과정)을 거친 모델로 일반적인 목적의 생성 능력과 지시어 충실도가 높으며 보통 50회의 추론 단계를 거쳐 이미지를 완성한다. 반면 ERNIE-Image-Turbo는 분포 매칭 증류(Distribution Matching Distillation, 복잡한 생성 과정을 단순화해 속도를 높이는 기술)와 강화 학습(Reinforcement Learning, 보상을 통해 최적의 행동을 학습하는 방식)을 통해 최적화된 버전이다. 터보 모델은 단 8회의 추론 단계만으로도 빠른 속도와 높은 심미적 완성도를 보여준다. 하드웨어 요구 사양 또한 합리적이다. 비디오 램(Video RAM, 그래픽 카드의 전용 메모리) 24GB를 갖춘 소비자용 GPU에서 구동이 가능해 연구자와 개발자의 진입 장벽을 크게 낮췄다.

실무 적용 가능성과 성능 검증

이 모델이 주목받는 이유는 단순한 화질 개선이 아니라 실무적인 제어 능력에 있다. 이미지 생성 모델의 지시어 이행 능력을 평가하는 벤치마크인 GENEval(이미지 생성 모델의 지시어 이행 능력을 평가하는 벤치마크)에서 ERNIE-Image는 프롬프트 강화 도구를 사용하지 않은 상태에서도 0.8856이라는 종합 점수를 기록했다. 이는 경쟁 모델인 Qwen-Image의 0.8683이나 FLUX.2-klein-9B의 0.8481보다 높은 수치로 80억 파라미터 규모의 모델이 훨씬 거대한 모델들과 대등하거나 오히려 앞서는 성능을 보여준 것이다.

특히 텍스트 렌더링 능력이 탁월하다. 길고 밀도가 높은 텍스트나 레이아웃에 민감한 문구들을 정확하게 구현해 내기 때문에 상업용 포스터, 인포그래픽, 사용자 인터페이스 디자인과 같은 텍스트 중심의 시각 콘텐츠 제작에 매우 유리하다. 또한 여러 객체가 등장하고 그들 사이의 세밀한 관계 묘사가 필요한 복잡한 지시어 수행 능력도 뛰어나다. 이를 통해 만화, 스토리보드, 다중 패널 구성과 같이 구도와 조직화가 핵심인 구조적 이미지 생성 작업에서 강력한 효율성을 발휘한다. 실사 사진부터 디자인 중심의 이미지, 시네마틱한 톤의 예술적 출력물까지 폭넓은 스타일을 지원한다는 점 역시 개발자가 이 모델을 선택해야 할 이유가 된다.

상업적 수준의 정밀한 제어력과 효율적인 하드웨어 요구 사양을 동시에 잡은 실무형 이미지 생성 도구다.