Krea 2 공개 및 핵심 기술 제원

이번에 공개된 Krea 2는 120억(12B) 개의 파라미터를 가진 Diffusion Transformer(확산 모델과 트랜스포머 구조를 결합해 확장성을 높인 아키텍처) 기반의 텍스트-이미지 생성 모델이다. 모델은 사용 목적에 따라 두 가지 버전으로 구분된다. 추가적인 사후 학습이나 미세 조정을 거치지 않은 기본 상태의 'Krea 2 Raw'와, 거대 모델의 성능을 작은 모델로 효율적으로 옮기는 지식 증류(Knowledge Distillation) 과정을 통해 최적화한 'Krea 2 Turbo'가 그것이다.

가장 핵심적인 수치는 추론 효율성이다. Krea 2 Turbo 모델은 단 8단계의 추론 과정(Inference Steps)만으로 2048x2048 크기의 2K 고해상도 이미지를 생성한다. 이는 기존 고품질 확산 모델들이 수십 단계의 샘플링 과정을 거쳐야 했던 것과 비교해 연산 비용과 생성 시간을 낮춘 결과다. 라이선스는 Krea 2 커뮤니티 라이선스를 따르며, 모델의 가중치 값을 공개하는 오픈 웨이트(Open Weights) 형태로 배포되어 개발자가 개별 서버 환경에 직접 구축할 수 있다.

모델 구조와 학습 메커니즘

Krea 2의 성능은 데이터 큐레이션과 아키텍처의 결합에서 나온다. 학습 데이터는 공개 데이터와 제3자 라이선스 데이터, 그리고 Krea.ai가 독자적으로 생성한 합성 데이터를 혼합해 사용했다. 특히 프롬프트 준수 능력과 시각적 정밀도를 높이기 위해 엄격하게 큐레이션된 합성 데이터를 활용한 것이 특징이다.

모델의 안전성 확보를 위해 학습 전 단계에서 유해 콘텐츠를 제거하는 필터링을 수행했다. 또한 단순한 유해 요청뿐만 아니라, 시스템의 제약을 우회하려는 공격적 프롬프트에도 대응할 수 있도록 타겟 미세 조정(Targeted Fine-tuning)을 거쳤으며, 이에 대한 내외부 안전성 평가를 완료했다.

구조적으로는 Diffusion Transformer를 채택해 모델 규모가 커짐에 따라 성능이 확장되는 특성을 활용했다. Turbo 모델의 경우, 지식 증류 기법을 통해 복잡한 샘플링 경로를 단축함으로써, 품질 저하를 최소화하면서도 추론 단계수를 8단계까지 줄여 지연시간(Latency)을 단축했다.

개발자 구현 및 운영 영향

개발자가 Krea 2를 도입할 때 가장 먼저 고려해야 할 점은 기존 추론 프레임워크와의 통합성이다. Krea 2는 허깅페이스의 Diffusers(확산 모델 구현 라이브러리)와 SGLang(LLM 및 확산 모델 추론 최적화 프레임워크)을 공식 지원한다. 이를 통해 인프라 설정 시간을 줄이고 추론 속도를 최적화할 수 있다.

공식 코드베이스를 통한 추론 명령어는 다음과 같다.

bash
uv run inference.py "a fox walking in the snow" \
 --checkpoint oss_turbo --steps 8 --cfg 0.0 --mu 1.15 --width 2048 --height 2048

Python 환경에서 Diffusers 라이브러리를 사용하여 구현하는 방식은 다음과 같다.

python
import torch
from diffusers import Krea2Pipeline

pipe = Krea2Pipeline.from_pretrained("krea/Krea-2-Turbo", torch_dtype=torch.bfloat16).to("cuda")
image = pipe("a fox in the snow", num_inference_steps=8, guidance_scale=0.0).images[0]
image.save("krea2.png")

SGLang을 이용해 명령줄 인터페이스(CLI)에서 이미지를 생성하는 방법은 다음과 같다.

bash
sglang generate --model-path krea/Krea-2-Turbo \
 --prompt "a red fox sitting in fresh snow, golden hour, photorealistic" \
 --num-inference-steps 8 --height 1024 --width 1024 --save-output

실무 관점에서 Krea 2 Turbo의 도입은 고해상도 이미지 생성에 필요한 GPU 연산 비용의 감소를 의미한다. 특히 8단계라는 짧은 추론 단계는 디자인 컨셉 도출이나 실시간 시각화 워크플로우에서 대기 시간을 줄이는 핵심 요소가 된다. 개발자는 모델을 직접 호스팅함으로써 API 호출 비용을 제어하고, SGLang과 같은 최적화 도구를 통해 처리량(Throughput)을 높이는 방향으로 운영 전략을 설정해야 한다.