디지털 휴먼 기술의 최대 난제는 소리와 입모양의 어색함을 없애는 불쾌한 골짜기를 극복하는 것이었다. 최근 HuggingFace에 공개된 LongCat-Video-Avatar 1.5는 이러한 한계를 정면으로 돌파하며 상용 서비스에 즉시 투입 가능한 수준의 오디오 기반 인간 비디오 생성 프레임워크를 제시했다. 이 모델은 단순히 입모양을 맞추는 수준을 넘어 전신 동작의 시간적 안정성과 정체성 유지라는 두 마리 토끼를 잡았다는 점에서 업계의 주목을 받고 있다.
상용화를 위해 설계된 기술적 사양과 최적화
LongCat-Video-Avatar 1.5는 LongCat-Video라는 기초 모델을 기반으로 구축되었다. 이 모델은 오디오와 텍스트를 비디오로 변환하는 AT2V(Audio-Text-to-Video) 방식과 오디오, 텍스트, 이미지를 모두 활용해 비디오를 생성하는 ATI2V(Audio-Text-Image-to-Video) 방식을 모두 지원한다. 특히 기존 모델들이 사용하던 Wav2Vec2 대신 OpenAI의 고성능 음성 인식 모델인 Whisper-Large를 오디오 인코더로 채택했다. 이를 통해 입술의 움직임이 훨씬 부드러워졌으며 자연스러운 발화 역동성을 확보했다.
개발자가 가장 주목해야 할 지점은 추론 효율성이다. DMD2(Distribution Matching Distillation 2, 확산 모델의 생성 속도를 획기적으로 높이는 증류 기술) 기반의 단계 증류 기법을 적용하여 추론 과정을 단 8 NFE(Number of Function Evaluations, 모델이 결과물을 내기 위해 계산을 반복하는 횟수)로 단축했다. 이는 고품질의 시각적 충실도를 유지하면서도 서버 운영 비용을 획기적으로 낮출 수 있음을 의미한다. 또한 단일 스트림뿐만 아니라 다중 스트림 오디오 입력과도 호환되어 복잡한 음성 환경에서도 안정적인 작동이 가능하다.
설치 및 환경 구축을 위한 명령어는 다음과 같다.
git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Videoconda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja
pip install psutil
pip install packaging
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt
conda install -c conda-forge librosa
conda install -c conda-forge ffmpeg
pip install -r requirements_avatar.txt
실무 시나리오와 검증된 성능 지표
이 모델의 진가는 단순한 수치가 아닌 실제 적용 범위에서 드러난다. 개발팀은 뉴스 방송, 지식 교육, 일상생활, 엔터테인먼트, 노래, 상업 홍보라는 6가지 핵심 시나리오를 설정하고 엄격한 인간 평가 벤치마크를 수행했다. 중국어와 영어라는 2개 언어, 그리고 실사와 애니메이션이라는 2가지 시각적 스타일을 조합해 총 508개의 이미지-오디오 쌍을 테스트했다.
평가 과정에는 770명의 크라우드소싱 평가자가 참여해 13,240건의 판단을 내렸으며, 10명의 도메인 전문가가 물리적 합리성, 오디오와 비디오의 조화, 시간적 안정성, 정체성 일관성이라는 4가지 차원에서 정밀 분석을 진행했다. 그 결과 LongCat-Video-Avatar 1.5는 기존의 선도적인 상용 모델들과 비교했을 때 인간과 유사한 정도에서 매우 높은 점수를 기록했다.
특히 인상적인 점은 도메인 일반화 능력이다. 실제 사람뿐만 아니라 애니메이션 캐릭터, 동물, 그리고 여러 사람이 상호작용하거나 물건을 다루는 복잡한 현실 조건에서도 강건한 생성 능력을 보여주었다. 이는 이 모델이 단순한 아바타 생성을 넘어 가상 배우, AI 앵커, 이커머스 마케팅 영상 제작 등 광범위한 산업 분야에 즉시 적용될 수 있음을 시사한다. 모델 설정에서 기본으로 활성화된 FlashAttention-2(메모리 사용량을 줄이고 속도를 높이는 어텐션 최적화 기술) 외에도 FlashAttention-3나 xformers를 선택적으로 사용할 수 있어 하드웨어 환경에 맞는 최적화가 가능하다.
LongCat-Video-Avatar 1.5는 연구실 수준의 프로토타입을 넘어 실제 서비스 가능한 수준의 효율성과 품질을 동시에 달성한 디지털 휴먼의 새로운 기준점이다.


