고객 센터 상담 내용을 텍스트로 옮기는데 숫자 하나가 틀려 엉뚱한 계좌로 송금될 뻔한 아찔한 상황을 겪어본 개발자가 있다. 혹은 AI 비서에게 말을 걸었지만 기계적인 말투 때문에 대화의 흐름이 뚝뚝 끊기는 답답함을 느껴본 적이 있을 것이다.
Grok STT 및 TTS API의 구체적 사양과 벤치마크
xAI(일론 머스크가 설립한 AI 기업)가 공개한 Grok STT(음성을 텍스트로 변환하는 기술) API는 25개 언어를 지원하며 두 가지 모드로 작동한다. 미리 녹음된 파일을 처리하는 배치 모드는 시간당 0.10달러이며, 실시간으로 음성을 캡처해 변환하는 스트리밍 모드는 시간당 0.20달러다. 지원하는 오디오 형식은 WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV의 컨테이너 형식 9종과 PCM, µ-law, A-law의 로우 형식 3종으로 총 12가지이며 요청당 최대 파일 크기는 500MB다.
전화 통화 개체 인식 오차율은 Grok이 5.0%로 ElevenLabs(AI 음성 생성 서비스)의 12.0%, Deepgram(음성 인식 AI 기업)의 13.5%, AssemblyAI(음성 데이터 분석 플랫폼)의 21.3%보다 현저히 낮다. 비디오 및 팟캐스트 전사 오차율은 Grok과 ElevenLabs가 2.4%로 동일하며 Deepgram은 3.0%, AssemblyAI는 3.2%를 기록했다. 일반 오디오 벤치마크의 단어 오차율은 6.9%다.
Grok TTS(텍스트를 음성으로 변환하는 기술) API는 100만 자당 4.20달러이며 20개 언어와 Ara, Eve, Leo, Rex, Sal 등 5가지 목소리를 지원한다. REST(웹 서버와 통신하는 표준 방식) 요청은 최대 15,000자까지 가능하며 그 이상의 길이는 WebSocket(실시간으로 데이터를 주고받는 통신 방식) 스트리밍 엔드포인트를 통해 텍스트 길이 제한 없이 처리되며 입력값이 모두 처리되기 전부터 오디오를 반환하기 시작한다.
단순 변환을 넘어선 화자 구분과 감정 연기
단순히 소리를 글자로 바꾸는 것을 넘어 누가 말했는지 구분하는 Speaker Diarization(여러 명의 화자를 구분해내는 기술)과 말소리를 읽기 좋은 숫자나 기호로 바꾸는 Inverse Text Normalization(텍스트 정규화 기술)이 핵심이다. 쉽게 말하면 STT의 화자 분리 기능은 여러 명이 떠드는 파티장에서 누가 어떤 말을 했는지 정확히 기록하는 속기사와 같다. 특히 전화 통화 인식 오차율에서 경쟁사 대비 최대 16%p 이상의 격차를 벌린 점은 기업용 서비스에서 치명적인 데이터 오류를 획기적으로 줄일 수 있음을 의미한다.
TTS의 경우 [laugh], [sigh], [breath] 같은 인라인 태그와 <whisper>, <emphasis> 같은 래핑 태그를 통해 감정을 조절한다. 비유하자면 TTS의 감정 태그는 대본에 '여기서 한숨을 쉰다'라고 적힌 연극 대본처럼 AI에게 세밀한 연기 지시를 내리는 것과 같다. 이는 기존 TTS 시스템이 문법적으로는 정확하지만 감정이 메말라 있던 한계를 극복하고 인간에 가까운 생동감을 구현했다는 점에서 의미가 크다. 개발자는 이제 복잡한 마크업 언어를 배우지 않고도 단순한 태그 삽입만으로 AI의 목소리에 생명력을 불어넣을 수 있게 되었다.
이제 AI는 단순히 말을 알아듣는 수준을 넘어 인간의 숨소리와 감정의 결까지 복제하는 단계로 진입했다.




