로컬 기기 구동에 최적화된 이미지 생성 모델 'Bonsai'

이미지를 하나 만들 때마다 서버 응답을 기다리거나 매달 구독료를 내는 일이 당연했다. PrismML이 공개한 Bonsai Image 4B는 이 과정을 내 기기 안에서 끝내도록 설계됐다. FLUX.2 Klein 4B라는 소형 모델을 기반으로 만들어 노트북이나 스마트폰 같은 로컬 하드웨어에서 고품질 확산 추론(노이즈 상태의 이미지에서 점차 선명한 그림을 찾아내는 과정)을 수행한다. 외부 서버를 거치지 않고 기기 자체에서 연산하므로 대기 시간이 사라진다.

모델의 덩치를 줄이기 위해 가중치(AI가 학습한 정보의 강도를 나타내는 수치)를 극단적으로 압축했다. 0과 1만 사용하는 1비트 방식과 세 가지 값만 쓰는 3진법(Ternary) 방식의 두 가지 버전으로 제공한다. 복잡한 소수점 숫자를 단순한 정수 형태로 바꾸어 메모리 사용량을 획기적으로 낮춘 결과다. 덕분에 메모리 용량이 제한적인 모바일 기기에서도 고성능 이미지 생성 기능을 탑재할 수 있다. 이 모델들은 Apache 2.0 라이선스에 따라 코드와 가중치가 모두 공개된 오픈 웨이트 형태로 배포됐다.

애플 실리콘 기기에 최적화된 MLX(애플 하드웨어 성능을 끌어올리는 머신러닝 프레임워크) 버전도 함께 제공한다. Hugging Face를 통해 bonsai-image-ternary-4B-mlx-2bit 모델을 내려받아 사용할 수 있다. 2비트 형태로 압축된 Ternary 모델을 적용해 아이폰 같은 로컬 환경에서도 효율적인 구동이 가능하다.

임베딩 없는 비트 토큰 기반 이미지 생성 방식인

개발자가 모바일 기기의 메모리 점유율 지표를 확인하며 한숨을 내쉰다. 고성능 이미지 모델을 올리기엔 가용 메모리가 턱없이 부족하기 때문이다. 이런 제약을 깨기 위해 임베딩(데이터를 AI가 이해하는 숫자로 바꾸는 과정) 단계 없이 비트 토큰(0과 1 같은 최소 단위)만으로 이미지를 만드는 MaskBit 방식이 제안되었다. Bonsai Image 4B는 여기서 더 나아가 가중치를 압축해 효율을 높였다. 품질 중심의 Ternary 모델은 1.21GB 용량으로 FLUX.2 Klein 4B 정확도의 95%를 유지하며 시각적 품질을 챙겼다. 경량화에 집중한 1-bit 모델은 정확도를 88%까지 유지하면서도 용량을 1GB 미만으로 줄여 메모리 사용량을 8.3배나 낮췄다.

디자이너가 사용하는 픽셀 아트 도구들은 이런 효율적인 생성 기술을 통해 작업 시간을 줄인다. Adobe Firefly(어도비의 생성 AI)는 참조 사진을 올리고 프롬프트를 입력해 이미지를 픽셀 아트로 바꾼다. 색상 팔레트와 그리드 세부 사항을 직접 설정해 인디 게임용 스프라이트 시트나 굿즈 제작에 쓸 수 있는 8비트와 16비트 스타일을 만든다. PixelLab은 텍스트 묘사만으로 사이드스크롤러나 하이 탑다운 방식의 타일셋(게임 맵을 구성하는 반복 타일 묶음)과 환경을 생성한다. Aragon 8-Bit Art Generator는 단순한 모양과 밝은 하이라이트를 더해 사진 속 인물을 귀여운 치비 스타일의 8비트 스프라이트로 변환한다. 레트로 색상을 활용해 고전 비디오 게임의 향수를 불러일으키는 디자인을 구현한다.

Flux.2 Klein 4B를 기반으로 한 Bonsai

이미지 생성 AI를 쓸 때마다 서버 응답을 기다리거나 매달 구독료를 내는 일은 꽤 번거롭다. PrismML이 Flux.2 Klein 4B(기본 모델)를 기반으로 한 Bonsai Image 4B를 공개하며 이 문제를 해결했다. 이제 서버를 거치지 않고 아이폰 같은 모바일 기기에서 직접 이미지를 만들 수 있다.

핵심은 가중치 양자화(모델의 숫자 데이터를 낮은 정밀도로 압축하는 기술)다. 1비트 모델은 7.75GB였던 기존 FLUX.2 Klein 4B의 크기를 8.3배 줄여 0.93GB로 만들었다. 3진법(Ternary) 모델 역시 6.4배 줄인 1.21GB로 구현했다. 무거운 모델을 다이어트시켜 메모리 사용량을 획기적으로 줄인 덕분에 모바일 기기 구동이 가능해졌다.

로컬 추론(기기 내부에서 직접 계산하는 방식)을 도입하면 서버 비용과 지연 시간이 사라진다. 사용자는 프롬프트를 수정하고 다시 생성하는 창의적 루프를 더 빠르고 저렴하게 반복할 수 있다. 입력한 프롬프트나 생성된 결과물이 외부 서버로 전송되지 않아 데이터 프라이버시 보호에도 유리하다.

Luma AI를 통해 텍스트 입력이나 기존 이미지 변환으로 픽셀 아트를 만들 수 있다. Aragon 8-Bit Art Generator는 저해상도 픽셀 블록과 단순한 도형, 레트로 셰이딩(고전 게임 스타일의 명암 처리) 기술을 사용해 사진을 클래식 휴대용 게임기나 아케이드 게임 속 캐릭터처럼 바꾼다. 톤과 색상을 조정해 전문적인 느낌을 낼 수 있으며, 인디 게임 개발이나 소셜 미디어 아바타 제작 등 의도적인 창의적 스타일이 필요한 분야에 유용하다.

픽셀 아트 생성 기능을 제공한다

모눈종이 위에 점을 하나씩 찍으며 색상을 제한하던 작업은 엄청난 인내심을 요구했다. 그리드(격자무늬)에 대한 기술적 이해가 필수적이었고 수정 한 번에도 많은 시간이 소요됐기 때문이다. 이제는 AI 기반 도구를 통해 정통성을 유지하면서도 빠르게 결과물을 만들고 확장할 수 있다. Adobe Firefly(어도비의 이미지 생성 AI)는 무료 픽셀 아트 생성기를 통해 캐릭터나 장면, 아이콘 같은 향수 어린 그래픽을 제작하는 기능을 제공한다. 수작업의 진입장벽을 낮춰 누구나 쉽게 픽셀 스타일의 자산을 만들 수 있게 됐다.

작업 효율은 도구 간의 연결에서 더 높아진다. Firefly에서 만든 픽셀 아트를 Adobe Photoshop(사진 편집 소프트웨어)이나 Illustrator(벡터 그래픽 도구)로 가져가 정교하게 수정하고 크기를 조절하거나 내용을 확장할 수 있다. PixelLab(픽셀 아트 생성 도구)의 경우 컨셉 이미지나 참조 스프라이트(캐릭터의 동작 단위 이미지)를 업로드해 일관된 방향의 뷰를 생성하는 기능을 갖췄다. 사용자의 비전에 맞게 캐릭터의 앞모습과 옆모습 등을 일관성 있게 구현하며 제작 마찰을 줄였다.

성능 최적화는 모델의 무게를 줄이는 방향으로 흐른다. Ternary Bonsai Image(저전력 이미지 생성 모델)는 부하 상태에서 메모리 사용량을 78%나 줄였지만 이미지 품질은 여전히 좋은 수준을 유지했다. 이와 관련된 MaskBit 연구 논문이 TMLR(기계 학습 연구 학술지)에 게재 승인되며 기술적 근거를 더했다. 고성능 생성 기능을 유지하면서도 기기 메모리 부담을 획기적으로 낮추는 효율성이 구현되고 있다. 이러한 최적화는 서버를 거치지 않고 기기 내부에서 고품질 이미지를 생성하는 기반이 된다.

8-Bit 및 레트로 픽셀 아트 생성기를 제공한다

서버 대기 시간이나 구독료 걱정 없이 내 스마트폰 안에서 바로 그림을 그릴 수 있다면 어떨까. 아이폰 17 Pro Max에서 512x512 크기의 이미지를 만드는 데 9.4초가 걸린다. 맥 M4 Pro에서는 약 6초면 충분하다. 기기 메모리 한계를 초과해 실행되지 않던 FLUX.2 Klein 4B와 달리 Bonsai Image 4B(기기 내부에서 작동하는 경량 이미지 모델)는 로컬 환경에서 원활하게 돌아간다. 클라우드 서비스만 고집하던 이들의 관점을 바꿀 만큼 실용적인 속도다.

Luma AI는 8-Bit & Retro Pixel Art Generator(고전 게임 스타일의 픽셀 아트 생성기)를 제공한다. 사용자가 입력한 개념이나 프롬프트, 혹은 기존 이미지를 정통 레트로 미학이 반영된 구조적인 픽셀 예술 작품으로 변환한다. 단순한 이미지 변형을 넘어 픽셀 기반의 정교한 예술적 구조를 갖춘 결과물을 만들어낸다.

PixelLab(게임용 캐릭터 및 오브젝트 생성 도구)은 스프라이트 시트(캐릭터의 연속 동작을 한 장에 모은 그림)를 위한 다양한 애니메이션 생성 기능을 갖췄다. 텍스트만으로 캐릭터의 걷기, 달리기, 공격 동작은 물론 사용자 정의 애니메이션까지 구현한다. 게임 전체 스타일에 맞춘 일관성 있는 캐릭터와 오브젝트를 생성하고, 전용 편집 도구로 이미지를 직접 수정하며 완성도를 높일 수 있다.

이러한 구현 과정은 컴퓨터 비전 및 패턴 인식(cs.CV)과 머신러닝(cs.LG) 분야의 주제를 다룬 MaskBit 연구를 기반으로 한다. 학술적 연구가 실제 기기에서 작동하는 생성 도구로 이어진 결과다.

이미지 생성 AI를 쓸 때마다 겪던 서버 대기 시간과 매달 나가는 구독료 부담이 사라진다. 4B 파라미터급 모델을 아이폰 온디바이스로 구동하는 데 성공했기 때문이다. 데이터의 무게를 결정하는 가중치를 0과 1 같은 이진법이나 3진법 형태로 꽉 압축해 메모리 사용량을 최대 8.3배나 줄인 결과다.

이제 개발자는 비싼 서버 비용 없이도 고성능 이미지 생성 기능을 앱 안에 직접 넣을 수 있는 기준을 갖게 됐다. 생성형 AI의 진입 장벽이 서버실에서 사용자 손끝으로 옮겨온 셈이다.