Stability AI, 6분 길이 곡 생성하는 'Stability Audio 3.0' 공개

Stability AI가 최대 6분 20초 길이의 전문 음악 생성이 가능한 오디오 모델 제품군 'Stability Audio 3.0'을 공개했다. 이번 릴리스는 단순한 생성 길이 연장을 넘어 모델 규모를 세분화하여 온디바이스(On-device, 기기 자체 실행) 환경부터 엔터프라이즈급 서비스까지 대응 범위를 확장한 것이 특징이다. 특히 기존 모델들이 수십 초에서 수 분 단위의 짧은 샘플 생성에 그쳤던 것과 달리, 음악적 구조와 멜로디 톤을 유지하며 6분 이상의 완곡을 생성할 수 있는 능력을 갖췄다.

주목할 점은 모델의 파라미터 규모를 459M에서 2.7B까지 4단계로 나누어 배포함으로써 사용 목적에 따른 최적화를 꾀했다는 점이다. 반면 모든 모델을 개방하지 않고 규모에 따라 오픈 웨이트(Open weights)와 유료 API 방식을 차등 적용하여 수익 모델을 구체화했다. 이는 생성 AI 음악 시장의 경쟁이 단순한 품질 경쟁에서 효율성과 법적 안정성 확보라는 실무적 단계로 진입했음을 시사한다.

Stability Audio 3.0, 459M부터 2.7B까지 4종 모델 라인업

Stability AI가 공개한 Stability Audio 3.0(스테이빌리티 오디오 3.0, AI 기반 오디오 생성 모델)의 라인업은 파라미터 규모에 따라 네 가지로 세분화되었다. 가장 작은 규모인 Small SFX와 Small 모델은 모두 459M(백만) 개의 파라미터를 탑재했다. 이 두 모델은 온디바이스(On-device, 외부 서버 연결 없이 기기 자체에서 처리하는 방식) 생성이 가능하도록 설계되었으며 최대 2분 길이의 음원을 생성할 수 있다. 그러나 이는 상위 모델과 비교했을 때 생성 가능 길이와 연산 능력 면에서 뚜렷한 차이를 보인다. 특히 과거 2024년에 공개된 Stable Audio Open이 최대 47초의 생성 길이를 지원했던 것과 비교하면, 이번 소형 모델들의 2분 제한은 수치상으로 상당한 진전이다.

반면 Medium(미디엄) 모델과 Large(라지) 모델은 생성 가능 길이를 6분 20초까지 대폭 확장했다. Medium 모델은 1.4B(십억) 개의 파라미터를, Large 모델은 2.7B 개의 파라미터를 갖췄다. 주목할 점은 생성 가능 길이의 증가폭이다. 6분 20초라는 수치는 2024년에 출시된 Stable Audio 2.0이 생성할 수 있었던 길이보다 두 배 이상 늘어난 결과다. 이 규모의 모델들은 단순히 길이만 늘린 것이 아니라 음악적 구조와 멜로디 톤을 유지하며 전문적인 수준의 음악을 생성하는 것을 목표로 한다. 다만 두 모델의 배포 및 접근 방식은 완전히 갈린다. Medium 모델은 오픈 웨이트(Open weights, 모델의 학습 결과물인 가중치를 공개하는 방식) 형태로 제공되어 사용자가 직접 수정하거나 최적화할 수 있다. 반면 Large 모델은 API(응용 프로그램 인터페이스) 호출 방식이나 유료 셀프 호스팅 서비스로만 제공된다.

라이선스 정책과 수익 구조 역시 모델 규모에 따라 다르게 적용된다. Small SFX, Small, Medium 모델은 오픈 웨이트 방식으로 제공되어 상대적으로 진입 장벽이 낮다. 그러나 Large 모델의 경우 기업의 매출 규모에 따라 엄격한 제약이 적용된다. 연 매출 100만 달러 이상의 기업은 반드시 별도의 엔터프라이즈 라이선스를 취득해야만 해당 모델을 사용할 수 있다. 이는 모델의 파라미터 크기가 커질수록 생성물의 품질과 상업적 가치가 높아진다는 판단 하에, 고성능 모델에 대해서는 폐쇄적인 유료 정책을 유지하겠다는 의도로 분석된다. Stability AI는 모델 규모를 기준으로 생성 가능 길이, 배포 방식, 그리고 상업적 이용 권한을 정교하게 분리하여 운영한다.

Stable Audio 2.0 대비 생성 길이 2배 확장 및 데이터 정제

이번 모델의 핵심 수치는 생성 가능 길이에서 갈린다. 미디엄(Medium)과 라지(Large) 모델은 최대 6분 20초의 곡을 생성할 수 있으며, 이 과정에서 음악적 구조와 멜로디 톤을 일관되게 유지하는 능력을 보여준다. 이는 2024년 출시된 스테이블 오디오 2.0(Stable Audio 2.0)이 구현했던 생성 길이를 2배 이상 확장한 결과다. 반면 2024년에 공개된 스테이블 오디오 오픈(Stable Audio Open)은 최대 생성 한계가 47초에 불과해 짧은 루프나 샘플 제작에 그쳤다. 이번 업데이트는 단순한 시간 연장을 넘어 전문적인 작곡 수준의 전체 길이를 확보함으로써 이전 버전이 가졌던 기술적 임계점을 정면으로 돌파하고 실용성을 높였다.

모델 라인업의 세분화와 배포 방식의 차이도 주목할 점이다. 스몰 SFX(Small SFX)와 스몰(Small) 모델은 최대 2분까지 생성이 가능하며, 온디바이스(On-device, 기기 자체 처리) 환경에서 작동하도록 설계되었다. 미디엄 모델까지는 오픈 웨이트(Open weights, 모델 가중치 공개) 방식으로 제공되어 외부 개발자가 직접 수정하고 활용하는 것이 가능하다. 그러나 라지 모델은 API(Application Programming Interface, 응용 프로그램 인터페이스)와 유료 셀프 호스팅 서비스로만 접근이 제한된다. 특히 연 매출 100만 달러 이상의 기업은 반드시 엔터프라이즈 라이선스를 취득해야 하는 제약을 두었다. 이는 고성능 모델의 막대한 컴퓨팅 자원 소모와 상업적 이용 권한을 엄격히 분리하여 관리하려는 의도로 분석된다.

데이터 학습 체계는 법적 리스크를 원천 차단하는 방향으로 전면 재편되었다. 스테빌리티 AI(Stability AI)는 워너 뮤직 그룹(Warner Music Group) 및 유니버설 뮤직 그룹(Universal Music Group)과 라이선스 계약을 체결하고 이를 학습 데이터셋에 직접 반영했다. 이번 오디오 모델 제품군은 전면 라이선스를 확보한 데이터만을 기반으로 구축되어 저작권 분쟁 가능성을 최소화했다. 반면 수노(Suno)나 유디오(Udio) 같은 경쟁 모델들이 현재 저작권 침해 여부를 두고 대규모 법적 공방을 벌이고 있는 상황과 극명하게 대조된다. 데이터 정제 과정에서 권리 관계를 명확히 정의하고 라이선스를 확보한 것은 생성 AI 서비스의 장기적 생존 조건이 단순한 성능 경쟁에서 데이터의 법적 정당성 확보로 이동했음을 시사한다.

전문 음악 시장 진입을 위한 인적 구성 및 비즈니스 전략

에단 캐플런(Ethan Kaplan, 전 유니버설 오디오 및 펜더 디지털 책임자)의 합류는 스태빌리티 AI가 지향하는 시장의 좌표를 명확히 보여준다. 이번 영입은 단순한 인력 보강이 아니라 전문 뮤지션 대상의 B2B(기업 간 거래) 시장 공략을 가속화하려는 전략적 배치다. 기존의 AI 음악 서비스들이 일반 사용자의 흥미 위주 생성 기능에 집중했다면, 스태빌리티 AI는 전문 음악가들이 실제 작업 공정에 도입할 수 있는 신규 제품군 개발에 착수했다. 주목할 점은 이들이 추구하는 방향이 단순한 자동 생성이 아니라, 기존 음악 제작 생태계의 워크플로우에 통합되는 전문 도구의 성격을 띤다는 사실이다. 이는 개발 단계에서부터 단순한 결과물 도출보다 세밀한 제어권과 편집 가능성을 우선시하는 전문 작업자의 요구사항을 반영하겠다는 의지로 해석된다.

데이터 확보 방식에서도 기존 생성 AI 기업들과 뚜렷한 대조를 보인다. 수노(Suno, AI 음악 생성 서비스)와 유디오(Udio, AI 음악 생성 서비스)가 현재 저작권 소송이라는 법적 리스크에 직면한 것과 반대되는 행보다. 스태빌리티 AI는 지난해 워너 뮤직 그룹 및 유니버설 뮤직 그룹과 파트너십을 체결하며 모델 학습을 위한 데이터 라이선스 문제를 선제적으로 해결했다. 이번 오디오 모델들이 완전히 라이선스된 데이터를 기반으로 구축되었다는 점은 법적 안정성을 중시하는 기업 고객과 전문 뮤지션들에게 강력한 소구점이 된다. 그러나 이러한 라이선스 확보 전략은 막대한 비용 지출을 수반하며, 이는 곧 모델의 성능만큼이나 자본력과 네트워크가 생존의 핵심 변수가 되었음을 의미한다. 저작권 분쟁이 가속화되는 상황에서 라이선스 확보는 단순한 윤리적 선택이 아니라 비즈니스 연속성을 위한 필수 생존 전략으로 작동하고 있다.

음악 산업의 핵심 인력을 확보하려는 경쟁은 스태빌리티 AI뿐만 아니라 업계 전반으로 확산되는 양상이다. 일레븐랩스(ElevenLabs, AI 음성 및 오디오 생성 기업)는 인디 음악 퍼블리셔 코발트 출신의 데릭 쿠르노이어를 전략 리드로 영입하며 음악 비즈니스 체계를 구축하고 있다. 수노 역시 머린(Merlin)의 전 CEO인 제레미 시로타를 최고 상업 책임자로 임명하며 시장 지배력을 높이려는 시도를 지속하고 있다. 반면 이러한 인적 구성의 변화는 AI 기업들이 기술적 우위만으로는 전문 음악 시장의 진입 장벽을 넘기 어렵다는 판단을 내렸음을 시사한다. 음악 제작의 문법과 유통 구조를 꿰뚫고 있는 업계 인사들을 전면에 배치함으로써, AI 모델이 단순한 장난감이 아닌 산업 표준 도구로서의 신뢰도를 확보하려는 계산이다. 결과적으로 모델의 파라미터 수치보다 음악 산업의 생리를 정확히 이해하는 인적 네트워크와 저작권 준수 여부가 B2B 시장의 실질적인 경쟁력으로 작용하고 있다.

Stability AI, 6분 길이 곡 생성하는 'Stability Audio 3.0' 공개

Stability Audio 3.0, 459M부터 2.7B까지 4종 모델 라인업

Stable Audio 2.0 대비 생성 길이 2배 확장 및 데이터 정제

전문 음악 시장 진입을 위한 인적 구성 및 비즈니스 전략

관련 기사