DeepL, Mixhalo 인수로 실시간 음성 번역 영역 확장

해외 컨퍼런스나 강연장에서 번역 앱을 켜고 스피커의 목소리를 잡으려 애쓰던 기억이 있을 것이다. 주변 소음이 섞여 엉뚱한 단어가 찍히면 당혹스럽기 마련이다. DeepL이 실시간 오디오 스트리밍과 번역 기술을 보유한 스타트업 Mixhalo(믹스할로)를 인수하며 이 지점을 공략한다.

DeepL은 최근 음성 관련 제품군을 빠르게 확장하고 있다. 2024년에 33개 이상의 언어로 음성을 텍스트로 바꿔주는 기능을 출시했고, 올해 4월에는 다국어 회의를 지원하는 음성-음성 번역 제품군까지 내놓았다. 텍스트 번역을 넘어 말소리를 즉시 다른 언어의 말소리로 바꾸는 단계까지 진입한 것이다.

Mixhalo는 2016년 마이크 아인지거, 앤 마리 심슨-아인지거, 빅 싱이 설립한 기업이다. 콘서트 관람 경험 개선 서비스로 시작해 스포츠 경기와 라이브 이벤트의 실시간 오디오 서비스로 진화했다. 그동안 Fortress Investment(포트리스 인베스트먼트)와 Founders Fund(파운더스 펀드) 등을 통해 3,900만 달러 이상의 자금을 확보했다. 이번 인수는 라이브 이벤트의 극심한 소음이나 대규모 인원이 동시에 접속하는 환경에서도 AI 번역의 정확도를 확보하려는 전략이다.

라이브 이벤트 번역 시장의 경쟁 구도와 미국 진출 전략

라이브 이벤트 현장에서 수천 명의 청중이 동시에 각자의 언어로 강연을 듣는 환경은 기술적으로 까다롭다. Mixhalo는 복잡한 현장 오디오 스트리밍 및 번역 분야에서 Wordly AI(실시간 다국어 번역 플랫폼)나 Seven Seven Six가 투자한 Palabra(언어 모델 기반 통역 서비스)와 같은 기업들과 경쟁하며 자리를 잡아왔다. 현장의 소음을 걸러내고 대규모 접속자에게 지연 없이 음성을 전달하는 기술력이 이 시장의 핵심 경쟁력이다.

DeepL은 샌프란시스코 기반의 Mixhalo 인수를 기점으로 미국 사업 확장에 속도를 낸다. 인수를 완료함에 따라 베이 에어리어(Bay Area)에 새로운 사무소를 열고 현지 운영 규모를 확대할 계획이다. 유럽을 중심으로 다져온 번역 역량을 미국 현지 거점 확보를 통해 이벤트 시장까지 넓히려는 전략이다.

단순 번역을 넘어 현장 구현 능력으로 승부

이러한 시장 확장 전략의 이면에는 단순한 기능 통합 이상의 사업적 계산이 깔려 있다. Jarek Kutylowski(야렉 쿠틸로프스키) CEO는 Mixhalo가 기술적 솔루션인 동시에 강력한 마케팅 사례가 될 것이라고 설명했다. 사람들이 실제로 모여 있는 현장에서 DeepL의 기술이 어떻게 작동하는지 직접 보여줌으로써, 실제 음성 처리 능력에 대한 사용자 신뢰를 확보하려는 목적이다.

이는 단순히 API(응용 프로그램 인터페이스)를 연결해 기능을 구현하는 수준을 넘어선 접근이다. 수많은 사람이 동시에 접속하고 주변 소음이 심한 실제 현장에서 AI 번역이 얼마나 매끄럽게 작동하는지가 관건이다. 소음이 심한 라이브 이벤트 환경에서 실시간 번역을 구현하는 것은 기술적 진입장벽이 높으며, 이를 해결하는 것이 곧 실질적인 기술적 우위로 이어진다.

수천 명의 청중이 몰린 강연장에서 번역 앱을 켜고 스피커 근처를 서성이던 시절은 이제 저물고 있다. DeepL이 인수한 Mixhalo의 기술은 단순히 언어를 바꾸는 것을 넘어, 현장의 복잡한 소음 속에서도 정교한 음성 데이터를 추출하는 지능형 필터 역할을 수행한다. 결국 AI 번역의 성패는 매끄러운 문장 생성 능력을 넘어, 가장 거친 환경에서 얼마나 명확한 소리를 잡아내느냐에 달려 있다. 오늘부터는 번역 앱을 켤 때, 단순히 언어 선택에 그치지 말고 주변 소음을 얼마나 효과적으로 걸러내는지 그 기술적 대응력을 확인해 보길 바란다.