매일 아침 고객 응대 자동화나 다국어 통역 서비스를 고민하는 개발자들의 커뮤니티에는 음성 지연 시간과 문맥 파악 능력을 어떻게 개선할지에 대한 질문이 쏟아진다. 사용자가 운전 중이거나 이동하는 상황에서 키보드 입력 없이 소프트웨어를 제어하려는 수요가 늘면서, 단순히 소리를 텍스트로 바꾸는 것을 넘어 실시간으로 추론하고 행동하는 음성 에이전트의 필요성이 커지고 있다. 이번 주 OpenAI가 발표한 새로운 실시간 음성 모델들은 이러한 현장의 갈증을 해소하기 위한 기술적 전환점을 제시한다.

실시간 음성 모델 3종의 API 도입과 성능 지표

OpenAI는 실시간 음성 상호작용을 지원하는 3가지 모델을 API를 통해 공식 출시했다. 핵심 모델인 GPT-Realtime-2는 이전 버전인 GPT-Realtime-1.5와 비교해 오디오 지능 평가인 Big Bench Audio에서 15.2% 높은 점수를 기록했다. 또한 지시 이행 능력을 측정하는 Audio MultiChallenge 벤치마크에서는 13.8% 향상된 성능을 보이며 실시간 대화에서의 문맥 유지와 추론 능력을 강화했다. 함께 공개된 GPT-Realtime-Translate는 70개 이상의 입력 언어와 13개 출력 언어를 지원하는 실시간 번역 모델이며, GPT-Realtime-Whisper는 지연 시간을 최소화한 스트리밍 음성 인식 모델이다. 가격은 GPT-Realtime-2가 100만 오디오 입력 토큰당 32달러, 출력 토큰당 64달러로 책정되었으며, 번역 모델은 분당 0.034달러, Whisper 모델은 분당 0.017달러에 제공된다.

기존 음성 인터페이스와 차별화된 실시간 추론 방식

예전에는 음성 데이터를 텍스트로 변환한 뒤 별도의 언어 모델로 전달하고 다시 음성으로 합성하는 다단계 과정을 거쳐야 했다. 이 방식은 중간 과정에서 발생하는 지연 시간 때문에 자연스러운 대화가 불가능했고, 사용자가 말을 중간에 끊거나 수정할 경우 문맥을 놓치기 일쑤였다. 이제는 GPT-Realtime-2가 대화가 진행되는 도중에 실시간으로 추론하고 도구를 호출하며 사용자의 수정 사항을 즉각 반영한다. 개발자들은 더 이상 단순한 질의응답 구조에 갇히지 않고, 대화 도중 실시간으로 정보를 검색하거나 예약을 변경하는 등 실제 업무를 수행하는 인터페이스를 구축할 수 있게 되었다. Playground를 통해 개발자는 별도의 인프라 구축 없이도 이러한 실시간 상호작용을 즉시 테스트할 수 있다.

개발자가 바로 체감하는 변화는 복잡한 파이프라인 없이도 고성능 음성 에이전트를 구현할 수 있다는 점이다. 보안 측면에서는 실시간 세션에 대한 활성 분류기를 도입해 유해 콘텐츠를 감지하고 차단하며, Agents SDK를 통해 개발자가 직접 안전 가드레일을 설정할 수 있도록 지원한다. 유럽 연합 내 데이터 거주지 정책을 준수하며 기업용 개인정보 보호 약관을 적용해 실무 환경에서의 도입 장벽을 낮춘 것도 특징이다. 이제 음성 AI는 단순한 보조 도구를 넘어, 실시간으로 사용자의 의도를 파악하고 복잡한 비즈니스 워크플로우를 처리하는 능동적인 인터페이스로 진화하고 있다.