AI 비디오 생성 모델 HappyHorse 1.1을 출시했다
OpenAI의 Sora가 보여준 충격적인 영상 퀄리티에 환호했지만, 정작 서비스 출시가 미뤄지며 갈증을 느낀 제작자가 많았다. 특히 AI 영상의 고질적 문제인 피사체 변형은 시청자의 몰입감을 깨뜨리고 영상의 완성도를 떨어뜨리는 결정적 요인이었다. Alibaba Cloud가 실제 콘텐츠 제작 현장에서 즉시 쓸 수 있는 수준의 비디오 합성 모델 HappyHorse 1.1을 출시하며 이 문제에 답했다.
Alibaba Cloud Model Studio(클라우드 환경에서 AI 모델을 구축하고 배포하는 플랫폼)를 통해 기업 고객과 개발자에게 API(프로그램 간 데이터를 주고받는 연결 고리) 접근 권한을 제공한다. 출시 후 2주 동안은 전체 서비스에 40% 할인 혜택을 적용해 초기 도입 비용을 낮췄다. 이는 단순히 실험적인 도구를 넘어, 기업이 실제 비즈니스 콘텐츠 제작 시나리오에 즉시 투입할 수 있는 수준의 비디오 합성을 제공하는 업그레이드 모델이다.
가장 핵심적인 변화는 R2V(참조 이미지를 비디오로 변환하는 기술) 기능의 도입이다. 사용자가 캐릭터의 참조 이미지 여러 장을 업로드하면, 영상의 프레임이나 샷이 바뀌어도 피사체의 외형이 일정하게 유지된다. 컷마다 외형이 조금씩 달라지는 드리프트 현상을 해결해 브랜드 광고나 시리즈물 제작에 필수적인 정체성 일관성을 확보했다. AI 비디오 제작에서 가장 까다로운 난제로 꼽히는 피사체 유지 문제를 해결함으로써 실제 상업 영상 제작 공정의 효율을 높였다.
비디오 리더보드에서 종합 2위를 기록했다
어제까지만 해도 경이롭게 느껴졌던 영상 퀄리티가 이제는 당연한 기준이 되는 속도가 무섭다. Arena.ai(AI 모델 성능 비교 플랫폼)가 운영하는 비디오 리더보드에서 HappyHorse 1.0이 종합 2위에 이름을 올렸다. 텍스트를 영상으로 바꾸는 카테고리와 이미지를 영상으로 바꾸는 카테고리 모두에서 1,444점을 획득하며 상위권에 진입했다. 이는 구글의 Veo-3.1보다 69점, xAI의 Grok-Imagine-Veo보다 23점 더 높은 수치다.
이 같은 성과는 150억 개의 파라미터를 갖춘 통합 셀프 어텐션 트랜스포머 구조를 통해 구현됐다. 파라미터는 AI가 정보를 처리하는 연결 고리의 개수이며, 트랜스포머는 데이터 속의 패턴과 관계를 파악해 결과물을 내놓는 설계도다. HappyHorse는 텍스트, 이미지, 비디오, 오디오라는 서로 다른 성격의 데이터를 각각 나누지 않고 하나의 연속된 토큰 시퀀스로 묶어 한꺼번에 처리하는 방식을 취한다.
영상 모델과 오디오 모델을 각각 구동해 나중에 이어 붙이는 기존의 결합 방식과는 완전히 다르다. 단 한 번의 생성 과정에서 모든 모달리티(텍스트나 이미지 같은 정보의 형태)를 동시에 처리하는 통합 시스템을 구축했다. 이렇게 단일 패스로 모든 요소를 한 번에 생성하기 때문에, 결과물을 만든 뒤 소리를 입히는 외부 더빙 프로그램이나 별도의 후처리 도구를 사용할 필요가 없다.
확인해야 할 핵심 지점
어제 믿었던 기술이 오늘 사라지는 일이 비일비재하다. OpenAI는 Sora를 운영하는 데 드는 막대한 비용이 재정적으로 지속 가능하지 않다고 판단해 결국 서비스를 중단했다. ByteDance 역시 할리우드 스튜디오들이 저작권 침해 문제를 강하게 제기하며 반발하자 Seedance 2.0의 글로벌 출시를 무기한 연기했다. 시장의 판도를 바꿀 것으로 보였던 거물들이 비용과 법적 분쟁이라는 현실적인 벽에 부딪혀 한 발 물러난 셈이다.
HappyHorse 1.1은 이 틈을 타 영상의 시각적 완성도를 높이는 데 집중했다. 얼굴에 기름기가 번들거리거나 외곽선이 과하게 날카롭게 처리되는 텍스처(화면의 질감) 등 부자연스러운 요소를 걷어내고 매끄러운 화면을 만들었다. 특히 대화 장면에서 입모양이 소리와 한 치의 오차 없이 딱딱 맞는 제로 드리프트 립싱크(소리와 입술 움직임의 시간 차이가 없는 기술)를 구현해 영상의 이질감을 획기적으로 줄였다.
사용자의 복잡한 요구사항을 정확하게 반영하는 지시어 이행 능력도 크게 개선했다. 길고 까다로운 프롬프트(AI에게 내리는 명령문)를 입력해도 카메라의 구체적인 이동 경로와 조명 설정을 세밀하게 조절할 수 있다. 모션 품질과 오디오-비주얼 동기화 능력을 동시에 끌어올리며 실제 광고나 마케팅 제작 현장에서 요구하는 정밀한 제어 능력을 갖추기 시작했다.
Sora가 열어젖힌 기대감의 빈자리를 알리바바의 해피호스 1.1이 빠르게 채우고 있다. 영상과 소리를 따로 만들지 않고 150억 개의 매개변수를 가진 하나의 거대 신경망으로 한 번에 처리하는 방식은 제작 공정을 획기적으로 줄인다.
결국 핵심은 캐릭터의 일관성을 유지하는 R2V 능력이 실제 광고 제작 비용을 얼마나 낮출 수 있느냐에 달려 있다. 이제는 단순한 화질 경쟁을 넘어 상업적 활용 가능성이라는 실질적인 잣대로 모델을 평가해야 할 때다.




