100%. OpenShorts는 영상 처리의 전 과정을 사용자의 자체 인프라에서 구동하는 100% 셀프 호스팅 방식을 채택했다. 이는 마치 모든 식재료와 조리 도구를 내 주방에 갖추고 외부 배달 없이 요리하는 것과 같다. 그리고 이러한 구조적 선택은 단순히 비용 절감을 넘어, 기업이 가장 민감하게 반응하는 데이터 보안과 프라이버시 문제를 정면으로 해결한다. 특히 API 키를 클라이언트 측에서 암호화하여 서버에 저장하지 않는 방식은 실무 개발자들에게 매우 매력적인 지점이다. 이제 개발자는 고가의 SaaS 구독료를 지불하는 대신, Docker(컨테이너 기반 가상화 플랫폼) 컨테이너 하나로 틱톡과 유튜브 숏츠 제작 파이프라인을 내재화할 수 있게 되었다.
Gemini 3.0와 Docker 기반의 OpenShorts 핵심 기능
기존의 숏츠 제작 과정은 편집자가 롱폼 영상의 타임라인을 일일이 훑으며 바이럴 가능성이 높은 구간을 수동으로 절삭하는 작업에서 시작된다. OpenShorts는 이 지점을 Google Gemini 3.0 Flash의 분석 능력으로 대체하여 자동화한다. 이 모델은 영상의 트랜스크립트와 장면 경계 분석을 수행하며 15초에서 60초 사이의 잠재적 클립을 3개에서 15개까지 자동으로 추출한다. 단순히 시간 단위로 자르는 것이 아니라 감정적 임팩트와 후크 강도 그리고 공유 가능성을 정밀하게 계산하여 점수를 산정하는 시스템을 갖추고 있어 데이터 기반의 구간 선택이 관찰된다. 이렇게 선정된 구간은 Clip Generator(클립 생성기)를 통해 9:16 세로형으로 변환되며 자동 구간 포착과 얼굴 트래킹 기술이 적용되어 피사체가 화면 중심에서 벗어나지 않도록 정교하게 크롭된다. 여기에 자막 추가 공정까지 통합되어 텍스트 기반의 시각적 전달력을 높이는 구조를 취한다.
제작 워크플로우는 단순한 영상 변환을 넘어 AI 아바타를 활용한 콘텐츠 확장 영역으로 이어진다. AI Shorts 기능은 AI 액터를 활용해 립싱크가 적용된 아바타 기반의 UGC(User Generated Content, 사용자 제작 콘텐츠) 마케팅 비디오를 생성한다. 이는 실제 인물을 섭외해 촬영하는 물리적 제약 없이 제품 설명만으로도 자연스럽게 말하는 아바타 영상을 제작할 수 있는 환경을 제안한다. 여기에 YouTube Studio 기능을 결합하여 영상의 첫인상을 결정하는 썸네일 생성부터 알고리즘 선택 확률을 높이는 바이럴용 제목과 영상 설명의 자동 생성까지 일괄 처리한다. 최종적으로 유튜브 업로드 처리 단계까지 하나의 파이프라인으로 통합되어 있어 기획과 편집 그리고 배포에 이르는 전 과정의 리소스를 획기적으로 줄이는 설계가 확인된다.
이 모든 기능은 Docker(컨테이너 기반 가상화 플랫폼) 기반으로 구축되어 사용자 인프라 내에서 독립적으로 배포하고 실행할 수 있다. 개발자와 운영자는 OpenShorts GitHub 저장소를 통해 전체 소스 코드에 접근할 수 있으며 MIT 라이선스가 적용되어 있어 상업적 목적의 수정과 재배포가 자유롭다. 롱폼 영상의 분석부터 AI 아바타 생성 그리고 플랫폼 업로드에 이르는 전 과정이 단일 워크플로우로 통합된 점은 여러 개의 개별 AI 도구를 조합해 사용하던 기존의 파편화된 방식과 명확히 차별화된다. 특히 Gemini 3.0 Flash의 빠른 추론 속도를 활용해 방대한 분량의 영상에서 최적의 구간을 빠르게 솎아내고 이를 즉시 숏츠 형태로 가공하는 일련의 과정은 실제 제작 현장에서의 리드 타임을 극단적으로 단축시키는 실무적 가치를 제공한다.
Opus Clip 대비 비용 제로와 기술적 리프레임 방식
Opus Clip(오퍼스 클립)나 Kapwing(캡윙) 같은 상용 서비스들은 월 15달러에서 최대 228달러의 구독료를 요구한다. OpenShorts(오픈쇼츠)는 이러한 유료 SaaS(서비스형 소프트웨어)의 핵심 기능을 오픈소스 스택으로 대체하여 비용을 제로로 낮췄다. 단순히 가격을 낮춘 것이 아니라 워터마크 제거와 무제한 생성이라는 실무적 제약을 완전히 해소했다는 점이 관찰된다. 이는 기업이 매달 지불하던 운영 비용을 자체 인프라 제어권으로 전환하는 기술적 리프레임의 결과이며, 구독 모델의 종속성에서 벗어나 데이터 주권을 확보하는 방향으로 정밀하게 설계되었다.
영상의 구도를 잡는 리프레임 기술은 두 가지 모드로 정교하게 구현되었다. TRACK(트랙) 모드에서는 MediaPipe(미디어파이프, 구글의 온디바이스 머신러닝 솔루션)를 통해 얼굴을 감지하고 YOLOv8(욜로 v8, 실시간 객체 탐지 모델)을 백업으로 활용해 피사체를 추적한다. 얼굴이 가려지거나 빠르게 움직이는 상황에서도 YOLOv8이 객체 위치를 보정함으로써 추적의 안정성을 확보하는 이중 구조가 제안된다. 반면 단체 샷이나 풍경 영상이 주를 이루는 경우에는 GENERAL(제너럴) 모드가 작동하여 배경에 블러 처리를 가한 세로형 영상을 생성함으로써 시각적 이질감을 최소화한다.
자막과 음성 합성 단계에서는 최적화된 오픈소스 모델과 외부 API의 전략적 연동이 결합되었다. OpenAI의 Whisper를 최적화한 faster-whisper(패스터 위스퍼)를 도입해 단어 단위의 정밀한 타임스탬프를 추출하고 이를 기반으로 자막을 영상에 직접 입히는 번인 처리를 자동화했다. 이는 기존의 단순 문장 단위 자막보다 훨씬 높은 싱크로율을 보여준다. 여기에 ElevenLabs(일레븐랩스, AI 음성 합성 서비스)를 연동하여 30개 이상의 언어로 AI 더빙을 수행한다. 특히 원본 화자의 음성 특성을 유지하면서 언어만 변경하는 기술을 통해 글로벌 콘텐츠 제작의 진입장벽을 낮춘 점이 특징이다.
이러한 기술적 구성은 개발자가 직접 제어할 수 있는 https://github.com/mutonby/openshorts 저장소를 통해 공개되었다. 유료 도구가 제공하는 블랙박스 형태의 알고리즘에서 벗어나 MediaPipe와 YOLOv8 같은 검증된 모델의 파라미터를 직접 조정할 수 있다는 점이 실무적 가치로 이어진다. 오픈소스 스택의 조합만으로 상용 수준의 숏츠 자동화 파이프라인을 구축하는 방식은 향후 API 비용 최적화와 커스텀 추적 로직 구현이라는 두 가지 실무적 이점을 동시에 제공할 것으로 분석된다는 점이 핵심이다.
API 무료 티어 전략과 국내 콘텐츠 파이프라인의 변화
기존의 숏츠 자동화 툴들은 월 15달러에서 최대 228달러에 이르는 구독료를 요구하며 콘텐츠 제작사의 고정 지출을 높여왔다. 이번 오픈소스 프로젝트는 이러한 유료 솔루션의 의존도를 낮추기 위해 고성능 모델의 무료 티어를 정교하게 조합하는 전략을 취한다. 특히 Google Gemini 3.0의 일 1,500회 요청 무료 티어를 필수적으로 활용하며, 여기에 ElevenLabs(AI 음성 합성 서비스)와 Upload-Post(자동 업로드 도구)의 무료 플랜을 결합해 운영 비용을 사실상 제로에 가깝게 낮춘다. 일일 1,500회의 요청 수는 중소규모의 콘텐츠 팀이 하루에 수십 개의 숏폼 영상을 생성하고 최적화하기에 충분한 수치로 관찰된다. 이는 단순히 비용 절감을 넘어 기업이 자체 인프라 내에서 콘텐츠 파이프라인을 완전히 통제할 수 있는 환경을 제공한다는 점에서 실무적 가치가 크다.
기술적 구현의 핵심은 Google Gemini 3.0이 동적으로 FFmpeg(멀티미디어 프레임워크) 필터를 생성하는 구조에 있다. 기존의 자동화 도구들이 미리 정의된 템플릿에 영상을 맞추는 방식이었다면, 이 시스템은 모델이 영상의 맥락을 분석해 색 보정, 트랜지션, 시각 효과를 위한 최적의 FFmpeg 명령어를 직접 생성하여 적용한다. 개발자는 더 이상 복잡한 필터 파라미터를 수동으로 조정할 필요 없이, 모델이 제안하는 동적 필터를 통해 영상의 시각적 완성도를 자동화할 수 있다. 이러한 방식은 콘텐츠의 다양성을 확보하면서도 제작 공수를 획기적으로 줄이는 결과로 이어진다. 특히 프롬프트를 통해 영상의 분위기를 제어하고 이를 즉각적인 코드 형태로 변환해 실행하는 과정은 기존의 영상 편집 워크플로우를 완전히 재정의한다.
전체 파이프라인은 Docker 기반의 셀프 호스팅 환경에서 구동되며, React + Vite로 구축된 인터페이스를 통해 제어된다. 미디어 생성의 부하를 처리하기 위해 fal.ai(AI 미디어 생성 플랫폼)를 활용하며, 최종 결과물은 S3 클라우드 백업을 거쳐 TikTok, Instagram Reels, YouTube Shorts 대시보드로 직접 게시된다. 여기에 faster-whisper(고속 음성 인식 모델), YOLOv8(객체 탐지 모델), MediaPipe(인체 및 얼굴 분석 프레임워크)가 결합되어 기술적 완성도를 높인다. 단순한 영상 편집을 넘어 S3 백업과 소셜 플랫폼 직접 게시까지 이어지는 자동화 흐름은 사람이 개입해야 했던 업로드 및 관리 단계를 완전히 제거한다. 결과적으로 기업은 외부 SaaS의 정책 변경이나 가격 인상 리스크에서 벗어나, 자체적인 기술 스택을 통해 지속 가능한 콘텐츠 생산 체계를 구축하는 것이 가능해진다.




