음성 기반 애플리케이션을 개발하는 엔지니어들은 그동안 모델의 응답 지연 시간과 부자연스러운 대화 흐름 때문에 실시간 서비스 구현에 어려움을 겪어왔다. 특히 사용자가 말을 마친 뒤 발생하는 어색한 침묵이나, 복잡한 요청을 처리할 때 대화 맥락을 놓치는 현상은 사용자 경험을 저해하는 핵심 요인이었다. 이번 주 OpenAI는 이러한 문제를 해결하기 위해 실시간 음성 처리에 특화된 세 가지 모델을 발표하고, 기존 베타 상태였던 Realtime API(실시간 음성 대화 및 처리를 위한 API)를 정식 서비스로 전환했다.
실시간 음성 모델 3종의 기능과 사양
OpenAI가 공개한 세 가지 모델은 각기 다른 목적에 최적화되어 있다. GPT-Realtime-2는 추론 능력을 갖춘 음성 에이전트용 모델이며, GPT-Realtime-Translate는 실시간 통역 전용, GPT-Realtime-Whisper는 스트리밍 방식의 음성 인식 모델이다. 특히 핵심 모델인 GPT-Realtime-2는 GPT-5급 추론 능력을 탑재하여 복잡한 요청을 처리하고 대화 중 발생하는 끼어들기를 자연스럽게 관리한다. 컨텍스트 윈도우는 기존 32K에서 128K 토큰으로 확장되어 긴 대화에서도 맥락을 유지한다. 가격은 100만 오디오 입력 토큰당 32달러, 출력 토큰당 64달러로 책정되었다. GPT-Realtime-Translate는 70개 이상의 언어를 13개 언어로 실시간 번역하며 분당 0.034달러에 제공된다. GPT-Realtime-Whisper는 낮은 지연 시간으로 음성을 텍스트로 변환하며 분당 0.017달러의 비용이 발생한다.
기존 모델 대비 개선된 추론 제어와 사용자 경험
예전에는 음성 모델이 다단계 요청을 처리할 때 중간 과정에서 응답이 멈추거나 이전 대화 내용을 잊어버리는 경우가 잦았다. 이제는 개발자가 추론 강도를 최소(minimal)부터 최고(xhigh)까지 5단계로 조절할 수 있어, 단순한 조회 작업에는 낮은 강도를, 복잡한 예약 업무에는 높은 강도를 선택해 성능과 지연 시간 사이의 균형을 맞출 수 있다. 또한 모델이 작업을 수행하는 동안 사용자에게 진행 상황을 알리는 내레이션 기능을 추가하여 시스템이 멈춘 것처럼 느껴지는 현상을 방지했다. 벤치마크 결과에 따르면 GPT-Realtime-2는 고강도 추론 설정 시 Big Bench Audio에서 96.6%의 점수를 기록하여 이전 모델인 1.5 버전의 81.4% 대비 15.2% 포인트 향상된 성능을 보였다. 감정 표현 조절 기능도 강화되어 상황에 따라 차분하거나 공감하는 말투로 응답 스타일을 변경할 수 있다.
개발자가 체감할 실무적 변화와 적용 방향
개발자가 바로 체감하는 변화는 세 가지 세션 유형을 통해 목적에 맞는 모델을 명확히 선택할 수 있게 되었다는 점이다. 음성 에이전트가 필요한 경우, 실시간 통역이 필요한 경우, 혹은 단순 텍스트 변환만 필요한 경우에 맞춰 API를 호출하면 된다. 이번 업데이트에는 Cedar와 Marin이라는 새로운 음성 옵션도 추가되었다. 실시간 음성 서비스의 정식 출시로 인해, 이제 기업들은 프로덕션 환경에서 안정적인 음성 에이전트를 구축할 수 있는 기반을 갖추게 되었다. 특히 실시간 스트리밍 전사(transcription)가 필요한 회의록 서비스나 다국어 고객 지원 시스템의 구현 난이도가 크게 낮아질 것으로 관찰된다.




