최근 생성형 인공지능 시장에서 음성 합성 기술의 상업적 가치가 기업들의 대규모 자본 투입으로 증명되고 있다. 단순히 텍스트를 읽어주는 수준을 넘어, 사람과 구별하기 어려운 수준의 감정과 억양을 구현하는 음성 인공지능(AI) 기업들이 거대 자본의 선택을 받는 상황이다. 특히 이번 주 ElevenLabs(텍스트를 자연스러운 음성으로 변환하는 AI 기업)가 공개한 투자자 명단은 이러한 기술이 단순한 연구 단계를 지나 산업 전반의 핵심 인프라로 자리 잡고 있음을 보여준다.

5억 달러 투자 유치와 110억 달러 기업 가치

ElevenLabs는 지난 2월 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 신규 투자자들을 공개했다. 이번 투자에는 블랙록(세계 최대 자산운용사), 웰링턴(글로벌 투자 관리 기업), D.E. 쇼(헤지펀드 운용사), 슈로더(자산운용사)와 같은 금융 기관이 포함되었다. 또한 엔비디아(AI 연산용 반도체 제조사), 세일즈포스(고객 관리 소프트웨어 기업), 산탄데르(금융 서비스 그룹), KPN(네덜란드 통신사), 도이치텔레콤(독일 통신사) 등 다수의 글로벌 기업이 전략적 투자자로 이름을 올렸다. 개인 투자자로는 배우 제이미 폭스, 에바 롱고리아, 그리고 오징어 게임의 황동혁 감독이 참여했다. 회사의 기업 가치는 작년 9월 66억 달러에서 올해 2월 110억 달러로 급격히 상승했다.

매출 성장과 기업용 시장의 확장

예전에는 음성 합성 기술이 주로 개인 창작자나 소규모 콘텐츠 제작 환경에서 활용되었다면, 이제는 대규모 엔터프라이즈 시장으로 그 무게중심이 이동했다. ElevenLabs는 연간 반복 매출(ARR)이 5억 달러를 돌파했다고 밝혔다. 이는 작년 말 약 3억 5천만 달러 수준이었던 매출이 단기간에 급성장한 결과다. 마티 스타니셰프스키 최고경영자는 올해 1분기에만 1억 달러의 순 신규 매출을 추가했다고 설명했다. 이러한 성장은 도이치텔레콤, 레볼루트(디지털 뱅킹 서비스), 클라르나(결제 서비스 기업)와 같은 대형 기업들과의 계약 체결이 견인했다. 특히 도이치텔레콤은 자사의 산업용 AI 비전의 핵심 요소로 ElevenLabs의 음성 서비스를 활용하고 있으며, 다국어 자동화 및 네트워크 내 AI 에이전트 구축에 이 기술을 도입하고 있다.

기술적 신뢰도와 시장의 변화

개발자가 바로 체감하는 변화는 음성 AI의 품질과 보안 기준이 기업 수준으로 격상되었다는 점이다. ElevenLabs는 최근 폴란드의 음성 AI 스타트업인 Papla(음성 합성 기술을 연구하는 기업) 팀을 인수하며 연구 역량을 강화했다. 이는 기계적인 음성이나 부자연스러운 상호작용이 사용자 신뢰를 떨어뜨린다는 판단에 따른 것이다. 또한 회사는 최근 1억 달러 규모의 텐더(주식 매수 제안)를 완료했으며, 로빈후드 벤처스(개인 투자자를 위한 주식 거래 플랫폼)를 통해 일반 투자자들에게도 투자 기회를 제공할 계획이다. 이는 기술의 폐쇄적인 개발을 넘어 자본 구조의 다변화를 꾀하려는 움직임으로 해석된다.

음성 인공지능은 이제 단순한 도구를 넘어 기업의 고객 접점을 결정짓는 가장 높은 수준의 보안과 품질이 요구되는 핵심 채널로 진화하고 있다.