이번 주 Google AI Studio(구글의 AI 개발 도구) 플레이그라운드에 접속한 개발자들 사이에서 묘한 긴장감이 흐른다. 단순히 텍스트를 읽어주는 수준을 넘어, AI가 숨을 쉬거나 특정 단어에 힘을 주는 연기를 하기 시작했기 때문이다. 그동안 AI 음성 서비스들이 가졌던 특유의 기계적인 톤을 지우기 위해 프롬프트를 수십 번 수정하던 개발자들은 이제 텍스트 사이에 작은 태그 하나를 넣는 것만으로 결과물을 완전히 바꾼다. 지금 커뮤니티에서는 AI가 단순한 낭독자를 넘어 성우의 영역으로 들어왔다는 반응이 뜨겁다.
Gemini 3.1 Flash TTS의 성능과 제어 도구
Google은 Gemini 3.1 Flash TTS(텍스트를 음성으로 변환하는 기술)를 공식 출시했다. 이 모델은 70개 이상의 언어를 지원하며, Artificial Analysis(AI 모델 성능 측정 플랫폼)의 TTS 리더보드에서 Elo 점수 1,211점을 기록했다. 현재 Google AI Studio, Vertex AI(기업용 AI 플랫폼), Google Vids(AI 기반 비디오 제작 도구)에서 바로 사용할 수 있다. 특히 Artificial Analysis는 이 모델이 고품질의 음성 생성 능력과 낮은 비용을 동시에 갖춘 가장 매력적인 사분면에 위치한다고 평가했다. 모든 출력물에는 SynthID(AI 생성 콘텐츠를 식별하는 워터마크 기술)가 적용되어 사람이 듣기에는 들리지 않지만 시스템적으로는 AI 생성물임을 알 수 있게 설계되었다.
오디오 태그가 바꾼 음성 생성의 기준
예전에는 AI 음성의 톤이나 속도를 바꾸려면 프롬프트를 길게 쓰거나 여러 번 다시 생성하며 운에 맡겨야 했다. 이제는 텍스트 입력창에 자연어 명령어를 직접 삽입하는 오디오 태그(음성 스타일과 속도를 지정하는 명령어) 방식을 사용한다. 개발자가 마치 감독의 의자에 앉아 AI에게 구체적인 연기 지시를 내리는 것과 같다. 이는 단순한 음성 합성을 넘어 고도의 연출이 필요한 캐릭터 생성이나 몰입형 오디오 경험 구현으로 기준점을 옮겼다. 특히 다국어 지원 범위가 70개국 이상으로 확장되면서, 각 언어의 고유한 억양과 스타일을 정밀하게 제어할 수 있는 환경이 구축되었다.
개발자가 바로 체감하는 변화는 작업 시간의 단축과 예측 가능성의 증가다. 이전에는 AI가 무작위로 생성하는 결과물 중에서 최선을 골라냈다면, 이제는 태그를 통해 원하는 지점에 정확히 강조점을 찍을 수 있다. 초기 테스트에 참여한 기업들은 단순한 텍스트 전달을 넘어 고충실도의 보컬 퍼포먼스를 구현할 수 있게 되었다고 말한다. 글로벌 시장을 타겟으로 하는 서비스 개발자들에게는 현지 언어의 미묘한 뉘앙스를 조절할 수 있는 이 기능이 실제 제품의 완성도를 결정짓는 핵심 요소가 될 전망이다.
이제 AI 음성은 정보를 전달하는 도구가 아니라, 감정을 설계하는 인터페이스로 진화했다.




