10 Eros가 이번 주 LTX2.3(영상 생성 모델)을 기반으로 한 새로운 I2V(Image-to-Video: 이미지를 영상으로 변환하는 기술) 모델을 공개했다. 이번 모델은 레이어 스케일링 병합(Layer Scaled Merge: 모델의 각 층별 가중치를 정교하게 조절하여 합치는 방식)을 도입해 영상의 제어력을 대폭 높였다. 이 기술은 이미지의 정체성을 유지하면서도 자연스러운 움직임을 구현하는 영상 생성의 기술적 지형을 바꾸고 있다.
모델 사양과 구동 환경
10 Eros는 LTX2.3과 Sulphur-2-base(기반 모델)를 결합해 구축되었다. BF16(Bfloat16: 연산 정밀도를 유지하며 메모리를 절약하는 데이터 형식) 버전은 CLIP(Contrastive Language-Image Pre-training: 텍스트와 이미지의 연관성을 학습한 모델)과 VAE(Variational Autoencoder: 데이터를 압축하고 복원하는 신경망)가 포함된 체크포인트로 제공된다. S1LV3RC01N은 양자화(Quantization: 모델의 가중치 정밀도를 낮춰 용량을 줄이는 과정)를 거친 Fp8_mixed_learned 버전을 배포했다. Kijai가 제공하는 FP8 Transformer(트랜스포머: 문맥 파악 능력이 뛰어난 딥러닝 아키텍처) 버전은 ComfyUI(컴피유아이: 노드 기반의 생성 AI 워크플로우 도구)의 diffusion_models 폴더 내에 배치해 사용한다.
모델 구동을 위한 필수 노드와 관련 파일은 아래 경로에서 확인할 수 있다.
bash
ComfyUI 전용 노드 설치 경로
https://github.com/TenStrip/10S-Comfy-nodes
FP8 Transformer 분할 파일 경로
https://huggingface.co/Kijai/LTX2.3_comfy/tree/main
실무 적용과 프롬프트 최적화
예전에는 LoRA(Low-Rank Adaptation: 기존 모델을 효율적으로 미세 조정하는 기법)를 로드할 때 프롬프트 지시 사항이 누락되거나 성능이 저하되는 일이 잦았다. 이제는 10 Eros를 통해 기존 방식보다 안정적으로 작동하며 사용자의 명령을 충실히 반영하는 환경이 조성되었다. 실무에서는 Grok을 활용해 프롬프트를 확장하는 방식이 핵심이다. 첫 프레임의 구성부터 신체 부위의 움직임, 오디오 큐까지 명시적으로 명령해야 최적의 결과물을 얻을 수 있다. 특히 cond_safe 버전의 LoRA를 사용해야 모델의 미세 조정 상태를 해치지 않고 구동이 가능하다.
기존의 I2V 시장이 우연한 결과물에 의존하는 생성형 도구였다면, 이제는 정밀한 설계도가 필요한 제작 도구로 변하고 있다. 10 Eros가 보여준 레이어 제어 방식은 AI 영상 제작의 기준점을 단순한 퀄리티에서 제어 가능성으로 옮겼다. 영상 장면 구성과 음향 효과를 정밀하게 설계하기 위한 프롬프트 가이드라인은 다음과 같다.
text
Generate a video scene script with a description based on the attached image for an LLM that has a tokenizer that uses interleaved attention to support long-context understanding that is fed into a multimodal video model. Strict specification, follow up to the word: No timestamps. No unnecessary embellishment. Output only plain English text and make it a copy box.
First, describe the image initial scene in concise natural language; subject(s), subject(s) appearance, subject(s) composition and pose, background, and context.
Next, formulate a naturally evolving scenario that would take place describing every moving body part, composition change, and manipulation from the uploaded initial frame that would be reflected in the video models post-latent evolution output. If the image is explicit or sexual in nature, use full anatomical terminology and spice it up slightly with visually representable erotic themes.
Center the prompt around this basic idea: [ concept ]
interweave this dialogue or sound concept into the scene with descriptions of voice tone followed by the lines delivered in quotations, in a temporal sequence between or during motions. Dialogue should be concise and non-rambling as it will take away from video quality: [ dialogue ]
Inside that prompt describe only notable audio and audio queues, both normal and explicit; background noise as well as foley and natural sounds. In a temporal sequence paired with coinciding motions. In the case of absent dialogue or soundscapes and only if background music is fitting; describe a fitting genre and melodic tone with matching mood.
Output only text following above instruction. Follow-up suggestions should be on the topic of expanding or changing motion or dialogue from the output text.
개발자가 체감하는 변화는 인물의 표정 변화와 주변 환경의 상호작용을 하나의 스크립트로 제어할 수 있다는 점이다. 이는 단순한 시각적 구현을 넘어 연출자의 의도를 정확하게 반영해야 하는 전문 영상 제작 환경의 생산성을 높인다.
단순한 영상 생성을 넘어 연출자의 의도를 픽셀 단위로 제어하는 전문 제작 도구의 포석을 놓았다.



