영상 제작 분야에서 생성형 AI가 도입된 이후, 창작자들은 상용 모델이 적용한 엄격한 안전 가이드라인과 필터링 시스템이라는 벽에 부딪혀 왔다. 윤리적 기준을 준수하기 위한 조치임에도 불구하고, 이는 창작자의 의도를 제한하는 결과로 이어지곤 했다. 최근 개발자 커뮤니티에서는 이러한 제약에서 벗어나 로컬 환경에서 완전한 제어권을 행사할 수 있는 영상 생성 모델인 Sulphur 2가 등장하며 주목받고 있다.

LTX 2.3 기반의 기술적 사양과 구성 요소

Sulphur 2는 잠재 트랜스포머(데이터의 복잡한 패턴을 학습하는 신경망 구조) 기반의 영상 생성 모델인 LTX 2.3을 기반으로 설계되었다. 이 모델은 텍스트를 영상으로 변환하는 t2v(Text-to-Video) 방식과 이미지를 영상으로 변환하는 i2v(Image-to-Video) 방식을 모두 지원한다. 개발자는 사용자의 하드웨어 환경을 고려하여 8비트 부동소수점 혼합 정밀도 방식인 fp8mixed 버전과 16비트 부동소수점 형식인 bf16 버전을 제공한다.

모델의 효율성을 높이기 위해 LoRA(Low-Rank Adaptation, 기존 모델의 가중치를 유지하며 효율적으로 추가 학습시키는 기법) 형태의 distill lora 파일도 함께 배포된다. 사용자는 전체 모델을 직접 사용하거나 LoRA를 적용하는 방식을 선택할 수 있으나, 개발자는 두 방식을 동시에 사용하는 것을 권장하지 않는다. 특히 주목할 점은 프롬프트 강화 도구의 포함이다. 이 도구는 GGUF(다양한 하드웨어에서 효율적으로 실행 가능하도록 설계된 양자화 모델 파일 형식) 파일과 mmproj(멀티모달 프로젝션, 텍스트와 이미지 같은 서로 다른 데이터를 연결하는 투영 층) 파일로 구성되어 텍스트와 이미지 입력을 정교하게 다듬어 영상 모델에 전달한다.

로컬 환경에서의 확장성과 실무 적용

예전에는 API 기반의 폐쇄적인 모델들이 특정 키워드에 대해 생성을 거부하거나 결과물을 왜곡하는 경우가 빈번했다. 이제는 로컬 환경에서 대규모 언어 모델을 쉽게 구동하게 해주는 소프트웨어인 LM Studio(로컬 환경에서 AI 모델을 실행하고 관리하는 도구)를 활용해 사용자가 직접 의도를 가감 없이 구현할 수 있게 되었다. 사용자는 LM Studio의 모델 폴더 내에 Sulphur 폴더를 생성하고, 그 안에 promptenhancer 폴더를 만들어 GGUF 파일과 mmproj 파일을 배치함으로써 시스템 프롬프트 없이도 텍스트와 이미지를 강화할 수 있는 환경을 구축할 수 있다.

개발자가 체감하는 가장 큰 변화는 로컬 GPU 자원만으로도 고성능의 영상 생성이 가능하다는 점이다. 특히 TenStrip가 진행한 i2v 병합 모델은 이미지에서 영상으로 넘어가는 전환 과정의 자연스러움을 극대화하여 실무에서 정적인 이미지를 생동감 넘치는 영상으로 변환해야 하는 작업자들에게 유용하다. 이는 예술적 실험이나 민감한 주제를 다루는 창작자들에게 중앙 집중식 AI의 검열 체계에서 벗어난 새로운 창작의 주권을 제공한다.

Sulphur 2는 사용자가 입력한 의도를 필터링 없이 영상으로 구현함으로써, 로컬 AI 모델이 창작의 자유도를 어디까지 확장할 수 있는지 보여주는 실무적인 이정표가 될 것이다.