로봇 학습 데이터 병목을 겨냥한 해법

성능이 검증된 모델일수록 기업의 영업비밀로 숨기는 것이 업계의 상식이다. Varya는 이 관행을 깨고 오픈 웨이트(open-weight, 모델의 가중치를 공개하는 방식) 모델로 공개된다. 인도 정부가 운영하는 AI 모델 및 데이터셋 중앙 저장소인 AI Kosh 포털이 배포 창구다. 모델뿐 아니라 모델을 만드는 데 사용된 훈련 데이터까지 함께 공개한다. 개발자는 이를 자신의 서버에 직접 호스팅하거나 필요에 따라 모델을 수정해 사용할 수 있다. 모델의 내부 구조를 공개해 개발자의 제어권을 극대화한 선택이다.

막대한 자본이 들어가는 GPU 컴퓨팅 자원은 AI 스타트업의 생존을 결정하는 핵심 변수다. Avataar AI는 약 12억 달러 규모의 인도 AI 미션(India AI Mission)에 선정된 12개 스타트업 중 하나다. 인도 정부는 국내 컴퓨팅 자원 부족 문제를 해결하기 위해 선정된 기업에 보조금이 지원되는 GPU 컴퓨팅 자원을 제공한다. 단, 이러한 지원을 받는 조건으로 개발한 모델을 대중에 공개해야 한다는 전제가 붙는다. 정부가 인프라 비용을 부담하는 대신 모델의 공공성을 확보하는 교환 구조다.

오픈 소스 전략과 수익 모델의 병행도 꾀한다. Avataar는 Varya를 자사 엔터프라이즈 고객들에게 제공해 기업용 시장을 공략할 예정이다. 동시에 외부 비디오 생성 도구와의 협력 체계를 구축해 확장성을 확보한다. Higgsfield(비디오 생성 도구)와 Adobe Firefly(어도비의 생성형 AI 도구) 같은 툴과의 파트너십 가능성을 열어두고 있다. 공개 모델로 기술적 영향력을 넓히고 기업 전용 서비스와 외부 파트너십으로 사업적 실리를 챙기는 방식이다.

서비스 가격은 기존 주요 비디오 AI 모델들보다 약 20배

고해상도 비디오 한 편을 얻기 위해 쏟아붓던 시간과 비용이 순식간에 무너졌다. 단 몇 번의 연산 최적화가 상용 서비스의 가격표를 완전히 바꿨다.

그동안 AI 비디오 생성 도구의 확산을 가로막은 것은 비싼 이용료와 느린 생성 속도였다. Varya(비디오 생성 AI 서비스)가 계획한 호스팅 서비스 가격은 초당 0.005달러(₹0.48)다. Veo(구글 비디오 AI), Kling(클링 AI), Luma(루마 AI), Runway(런웨이 AI) 같은 기존 주요 모델들은 보통 초당 0.10달러 이상의 비용을 청구한다. Varya의 서비스 가격은 이들보다 약 20배 저렴하다. 고성능 비디오 AI의 도입 비용 임계점이 어디까지 내려갈 수 있는지 확인하는 기준점이 됐다.

연산 단계의 단축이 생성 속도와 비용 문제를 동시에 해결했다. Varya는 Wan 2.2(오픈소스 비디오 모델)가 거치는 50단계를 4단계로 줄인 구조를 적용했다. 생성 속도는 Wan 2.2보다 10배 빨라졌다. NVIDIA H200 GPU를 사용해 5초 분량의 720p 클립을 생성하는 시간을 비교하면 차이는 더 뚜렷하다. Varya는 45초 만에 작업을 완료하지만 Wan 2.2는 1,230초가 소요된다. 추론 단계의 단축이 서비스 단가를 낮춘 직접적 근거다.

확인해야 할 핵심 지점

고성능 AI 모델의 운영 비용은 서비스의 최종 가격을 결정하는 핵심 변수다. 기술의 정교함보다 중요한 것은 이를 상용화 가능한 비용 구조로 전환하는 최적화 능력이다.

Avataar AI(아바타 AI, 비디오 생성 스타트업)는 인도 현지 문화 맥락을 학습한 비디오 AI 모델 Varya(바랴)를 출시했다. 이 모델은 인도 특유의 축제와 음식, 의복, 건축물을 정확하게 식별하도록 큐레이션된 데이터를 통해 훈련되었다. 글로벌 범용 모델이 출력하는 정형화된 결과물에서 벗어나 인도 시장의 세밀한 문화적 뉘앙스를 반영하도록 설계했다. 현지 데이터 중심의 학습을 통해 생성물의 문화적 정확도를 높이고 지역 특화 콘텐츠 생성 능력을 강화했다.

모델 구현 방식은 Alibaba(알리바바)의 공개 비디오 생성 모델인 Wan 2.2를 기반으로 한다. 증류(Distillation, 거대 모델의 지식을 작은 모델로 전이하는 기술) 기법을 적용해 모델의 핵심 기능을 압축했다. 처음부터 거대 모델을 구축하는 대신 기존 모델의 성능을 유지하며 크기를 줄인 경량 버전을 구현했다. Avataar AI가 정의한 특정 사용 사례에 최적화된 구조를 통해 더 가볍고 빠른 추론 속도를 확보했다. 공개 모델의 성능을 압축해 효율성을 극대화한 전략이다.

이러한 접근은 고비용의 모델 구축 과정을 생략하고 특정 시장의 요구사항에 맞춘 최적화에 집중한 결과다. 데이터 큐레이션과 모델 압축을 결합해 인도 시장이라는 국소 영역에서 실질적인 구현 가능성을 증명했다.

비싼 이용료와 느린 생성 속도는 AI 비디오 도구의 확산을 가로막는 실질적 제약이었다. Varya는 Wan 2.2 모델을 증류해 추론 단계를 50단계에서 4단계로 줄였다. 기존 상용 모델보다 20배 저렴한 초당 0.005달러의 가격표는 기술적 효율이 곧 가격 경쟁력으로 직결됨을 증명한다. 고성능 비디오 AI의 도입 비용 임계점이 어디까지 내려갈 수 있는지가 다음 경쟁의 핵심이다.