매일 아침 음성 비서에게 "오늘 날씨 어때?"라고 묻는 순간, 1초의 지연이 대화의 흐름을 끊는다. 이번 주 구글이 내놓은 Gemini 3.1 Flash Live는 이 지연을 절반으로 줄이고, 상대방이 말을 끊거나 망설이는 상황까지 처리할 수 있도록 설계된 음성 전용 모델이다.
구글이 공개한 Gemini 3.1 Flash Live, 음성 전용 최고 품질 모델
Google은 3월 26일 Gemini 3.1 Flash Live를 발표했다. 이 모델은 구글의 음성 AI 중 가장 높은 품질을 목표로 하며, 실시간 대화에 특화되었다. 개발자는 Google AI Studio의 Gemini Live API를 통해 접근할 수 있고, 기업은 고객 경험 개선에 활용할 수 있다. 일반 사용자는 Search Live와 Gemini Live에서 바로 체험할 수 있으며, 200개국 이상으로 확장되었다.
핵심 수치는 두 가지 벤치마크에서 드러난다. ComplexFuncBench Audio(여러 조건이 얽힌 복잡한 함수 호출을 평가하는 벤치마크)에서 이전 모델 대비 90.8%를 기록했다. Scale AI의 Audio MultiChallenge(실제 음성에서 흔한 중단과 망설임 속에서 복잡한 명령을 따르고 장기 추론을 테스트하는 벤치마크)에서는 'thinking' 기능을 켰을 때 36.1%를 달성했다. 이전 모델인 2.5 Flash Native Audio보다 음조 이해 능력이 개선되어, 사용자의 좌절이나 혼란을 음성의 높낮이와 속도로 인지하고 응답을 동적으로 조정한다.
모든 음성 출력에는 SynthID(인공지능이 생성한 콘텐츠를 감지할 수 있도록 음성에 직접 새겨넣는 워터마크)가 적용되어, 잘못된 정보 유포를 방지한다.
예전에는 음성 명령 하나에도 2~3초 기다려야 했다면, 이제는 끊김 없는 대화가 가능해졌다
예전 음성 AI는 사용자가 말을 마친 후에야 응답을 시작했고, 중간에 말을 끊거나 주제를 바꾸면 맥락을 잃었다. Gemini 3.1 Flash Live는 이 두 가지를 모두 바꾼다. Gemini Live에서 이전 모델보다 응답 속도가 빨라졌고, 대화 맥락을 유지하는 길이가 두 배로 늘어났다. 긴 브레인스토밍 중에도 생각의 흐름이 끊기지 않는다.
또한 이 모델은 기본적으로 여러 언어를 지원한다. 이 덕분에 Search Live가 이번 주 200개국 이상으로 확장되었고, 사용자는 자신이 선호하는 언어로 실시간 음성 검색을 할 수 있다. Verizon, LiveKit, The Home Depot 같은 기업들은 워크플로에 도입한 후 대화가 더 자연스러워졌다고 평가했다.
개발자가 바로 체감하는 변화는 음성 기반 '바이브 코딩'(음성 명령으로 코드를 작성하고 즉시 수정하는 방식)이 가능해졌다는 점이다. 시끄러운 환경에서도 복잡한 작업을 처리하는 음성 에이전트를 구축할 수 있다. 구체적인 사용 예시는 Gemini 3.1 Pro와 결합한 데모에서 확인할 수 있다.
구글은 이번 모델로 음성 AI가 단순한 명령 수행을 넘어, 사람과 사람이 대화하듯 자연스러운 상호작용을 제공하는 단계에 진입했다고 본다. 6개월 뒤 우리 코드에 들어오는 변화는 분명하다. 음성 인터페이스가 더 이상 '부가 기능'이 아니라, 검색과 고객 응대의 기본 입력 방식이 될 것이다.



