외국인 친구와 대화할 때 스마트폰에 글자를 입력하고 화면을 보여주는 모습은 이제 익숙하다. 하지만 글자를 치지 않고 그냥 말했는데 상대방의 언어로 바로 들린다면 어떨까. 우리가 상상하던 마법 같은 통역기가 정말 현실이 되는 것일까.

DeepL이 선보인 목소리 번역 기능

DeepL(글자 번역을 전문으로 하는 회사)이 목소리를 바로 번역해 주는 기능을 내놓았다. Zoom(화상 회의를 하는 프로그램)이나 Microsoft Teams(회사에서 쓰는 채팅 도구) 같은 곳에서 바로 쓸 수 있다. QR 코드(네모난 모양의 바코드)를 찍어 여러 명이 한꺼번에 대화에 참여하는 기능도 들어갔다.

기업들이 자기 입맛에 맞게 기능을 가져다 쓸 수 있도록 API(다른 프로그램이 기능을 빌려 쓸 수 있게 만든 연결 통로)도 함께 공개했다. 이를 통해 고객 센터 같은 곳에서 외국인 고객과 더 쉽게 대화할 수 있다. 이제는 전문 용어나 회사 이름 같은 어려운 단어도 학습시켜서 정확하게 번역할 수 있게 되었다. DeepL은 이제 글자를 넘어 목소리 영역으로 활동 범위를 넓혔다.

지연 시간을 줄이기 위한 3단계 과정

실시간 번역에서 가장 어려운 점은 지연 시간(말하고 나서 번역된 소리가 나올 때까지 걸리는 시간)을 줄이는 일이다. 대화 도중에 너무 오래 쉬면 흐름이 끊겨서 어색해지기 때문이다. 정확하게 번역하면서도 빠르게 소리를 내보내는 균형을 잡는 것이 핵심이다.

비유하자면 현재 DeepL의 방식은 외국어 편지를 받아서 한국어로 옮겨 적고 다시 읽어주는 과정과 비슷하다. 구체적으로는 목소리를 듣고 글자로 바꾼 뒤, 그 글자를 번역하고, 다시 목소리로 읽어주는 세 단계를 거친다. DeepL은 오랫동안 글자 번역을 해왔기 때문에 이 과정에서 번역의 질이 매우 높다고 주장한다. 앞으로는 글자로 바꾸는 중간 단계 없이 바로 목소리를 목소리로 바꾸는 엔드투엔드(중간 단계 없이 처음부터 끝까지 한 번에 처리하는 방식) 모델을 만들 계획이다.

목소리 번역 시장의 경쟁자들

시장에는 이미 비슷한 도구를 만드는 회사들이 많다. Sanas(말하는 사람의 억양을 자연스럽게 바꿔주는 도구)는 상담원의 말투를 교정하는 데 집중하고, Camb.AI(목소리를 합성해 영상에 입히는 도구)는 영화나 영상의 더빙에 특화되어 있다.

Palabra(말하는 사람의 원래 목소리 톤을 유지하며 번역하는 도구)는 의미뿐만 아니라 목소리의 느낌까지 살리려 노력한다. DeepL은 이런 경쟁자들 사이에서 자신들이 가진 강력한 번역 능력을 무기로 삼으려 한다. 결국 누가 더 빠르고 정확하게 사람의 마음까지 전달하느냐의 싸움이 되었다.

이제 언어의 장벽이 사라지고 목소리만으로 전 세계 누구와도 연결되는 세상이 다가오고 있다.