음성 감정까지 읽어내는 엔드투엔드 모델, 스텝오디오 2.5 리얼타임 공개

"global scene-level tonal setting" 발언을 따옴표로 감싸며 스텝펀(StepFun) 연구팀은 이번 모델이 단순히 말을 알아듣는 수준을 넘어 문장 단위의 미세한 감정 표현까지 조각해낼 수 있음을 강조했다. 상하이 기반의 AI 연구소인 스텝펀이 새롭게 공개한 스텝오디오 2.5 리얼타임(StepAudio 2.5 Realtime)은 음성 인식, 추론, 합성을 별도의 단계로 나누지 않고 하나의 통합 시스템에서 처리하는 엔드투엔드(End-to-End) 방식의 실시간 음성 모델이다. 개발자 커뮤니티에서는 이 모델이 기존 파이프라인 방식의 한계를 어떻게 극복했는지, 그리고 왜 지금 실시간 음성 상호작용의 질적 변화가 중요한지에 대해 뜨거운 논의가 오가고 있다. 특히 단순히 텍스트를 읽어주는 TTS(Text-to-Speech)를 넘어, 화자의 한숨이나 웃음소리 같은 비언어적 요소까지 이해하려는 시도가 지금 실시간 음성 AI 시장의 새로운 기준점을 제시하고 있다.

스텝오디오 2.5 리얼타임의 기술적 스펙과 연동 방식

과거의 음성 AI 시스템은 음성 인식(STT, Speech-to-Text), 텍스트 추론(LLM, Large Language Model), 음성 합성(TTS, Text-to-Speech)이라는 세 단계의 파이프라인을 순차적으로 거쳐야만 했다. 개발자들 사이에서 이 방식은 늘 지연 시간(Latency)이라는 고질적인 병목 구간을 만들어내는 주범으로 꼽혔으며, 각 단계에서 발생하는 오차가 누적되어 최종 출력의 품질을 떨어뜨리는 원인이 되었다. 스텝오디오 2.5 리얼타임은 이러한 분절된 구조를 완전히 걷어내고 엔드투엔드(End-to-End, 입력부터 출력까지 하나의 신경망으로 처리하는 방식) 통합 시스템을 채택하며 판을 바꿨다. 이제 오디오 입력이 들어오면 중간 단계의 텍스트 변환 과정 없이 즉각적으로 오디오 출력이 나가는 단일화된 경로를 통해 실시간성을 확보했다.

모델을 구현하는 개발자가 마주하는 인터페이스는 매우 직관적이며 연결 방식 또한 간결하다. 모델명 `step-2.5-realtime`을 지정하고 웹소켓(WebSocket, 클라이언트와 서버 간에 지속적인 연결을 유지하여 실시간 양방향 통신을 가능하게 하는 프로토콜) API를 통해 서버와 직접 연결하면 된다. 구체적인 접속 엔드포인트 주소는 다음과 같다.

wss://api.stepfun.com/v1/realtime

서버와 클라이언트는 이 연결 방식을 통해 끊김 없이 바이너리 데이터를 주고받으며 지연 시간을 극단적으로 낮춘 실시간 대화를 구현한다. 커뮤니티에서는 특히 기존의 HTTP 요청-응답 방식이 가졌던 오버헤드를 완전히 제거하고 스트리밍 구조를 통해 인간의 대화 속도에 근접한 반응성을 구현했다는 점에 열광하고 있다.

중국어와 영어로 구성된 지원 언어는 단순한 번역 레이어의 추가가 아니라 아키텍처 수준에서 통합된 결과다. 엔드투엔드 모델은 텍스트라는 중간 매개체 없이 음성 신호를 직접 처리하므로, 두 언어의 고유한 음향적 특성과 뉘앙스를 훨씬 더 정교하게 유지할 수 있다. 개발자들은 기존 파이프라인 방식에서 STT가 단어를 잘못 인식했을 때 TTS까지 그 오류가 그대로 전이되던 고질적인 문제가 이 통합 모델에서 어떻게 사라졌는지를 두고 기술적인 분석을 이어가고 있다. 텍스트 변환 과정의 누락 없이 음성 데이터가 직접 흐르는 구조는 다국어 환경에서의 자연스러운 인터랙션을 가능하게 만드는 핵심 동력이 된다.

음성 AI가 데이터를 인식하는 패러다임 자체가 이번 기술적 전환을 통해 완전히 바뀐다. 기존 파이프라인은 텍스트로 변환하는 순간 화자의 떨림, 호흡, 강조점 같은 비언어적 정보가 모두 소실되었지만, 엔드투엔드 방식은 오디오 신호의 파형을 직접 다루기에 이러한 맥락을 온전히 보존한다. 현재 개발자 커뮤니티에서는 텍스트 기반의 프롬프트 제어를 넘어 오디오 피처(Audio Feature, 음성의 고유한 물리적 특성)를 어떻게 정밀하게 조작하고 유도할 것인가에 대한 논의가 매우 뜨겁다. 스텝오디오 2.5 리얼타임이 보여준 이 통합 구조는 실시간 음성 인터페이스의 새로운 기술적 기준점을 제시하며, 기존의 분절된 시스템을 고수하던 서비스들에게 전면적인 아키텍처 재설계라는 숙제를 던지고 있다.

백만 단위 페르소나 매트릭스와 RLHF의 결합

스텝펀(StepFun, 상하이 기반 AI 연구소)이 공개한 데이터 구축 방식은 기존의 수동 라벨링과는 궤를 달리한다. 우선 1만 개 이상의 고품질 페르소나 시드 데이터를 확보한 뒤 이를 알고리즘으로 확장해 백만 단위의 페르소나 특징 매트릭스를 구축했다. 개발자 커뮤니티에서는 단순히 프롬프트를 정교하게 짜는 수준을 넘어 데이터셋 자체를 기하급수적으로 확장해 일반화 성능을 잡으려 했다는 점에 주목하고 있다. 특히 발생 빈도가 낮은 롱테일(Long-tail) 대화 주제에서도 캐릭터가 무너지지 않고 안정적인 성능을 내기 위해 이러한 대규모 매트릭스 구조를 선택했다. 사람이 일일이 수백만 개의 샘플을 만드는 대신 정교하게 큐레이션된 시드 세트에서 알고리즘적 확장을 시도해 학습 효율과 다양성을 동시에 확보한 설계다.

역할극 AI 개발자들 사이에서 캐릭터가 대화 도중 갑자기 정체성을 잃고 AI 본연의 말투로 돌아오는 OOC(Out-of-Character, 캐릭터 붕괴) 현상은 가장 까다로운 난제로 꼽힌다. 스텝펀은 이를 해결하기 위해 페르소나 유지력(Persona Consistency)에 특화된 전용 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 적용했다. RLHF는 인간의 선호도 신호를 통해 보상 모델을 학습시키고 이를 다시 언어 모델의 행동 지침으로 사용하는 기법이다. 일반적인 챗봇의 윤리적 정렬을 넘어 역할극의 안정성이라는 매우 구체적인 목표에 RLHF를 타겟팅했다는 점이 이번 업데이트의 핵심이다. 커뮤니티에서는 모델의 지능적 응답보다 캐릭터를 끝까지 유지하는 제어력이 실제 사용자 경험의 몰입도를 결정짓는다는 논쟁이 뜨겁게 달아오르고 있다.

데이터의 규모와 정밀한 제어라는 두 가지 축을 동시에 강화하려는 시도가 백만 단위의 특징 매트릭스와 전용 RLHF의 결합으로 나타났다. 알고리즘으로 확장된 방대한 페르소나 데이터가 모델에게 수많은 성격의 원형과 변주를 제공한다면, RLHF는 그 방대한 가능성 속에서 모델이 설정된 경로를 이탈하지 않도록 보상 체계를 통해 가이드라인을 치는 역할을 수행한다. 대화가 길어질수록 캐릭터의 일관성이 희석되는 현상을 기술적으로 억제함으로써 사용자에게 끊김 없는 페르소나 경험을 제공하겠다는 전략이다. 단순한 텍스트 생성을 넘어 특정 정체성을 유지하며 실시간 음성으로 출력해야 하는 엔드투엔드 모델의 특성상 이러한 일관성 확보는 단순한 기능 추가가 아니라 모델의 생존 조건에 가깝다.

파이프라인 모델과의 차별점: 비언어적 정보 처리

기존 음성 AI에서 개발자들이 가장 답답해하던 지점은 텍스트 변환 과정에서 사라지는 정보들이다. 기존의 파이프라인 모델은 음성 인식(STT, Speech-to-Text), 추론, 합성(TTS, Text-to-Speech) 단계를 순차적으로 거치는 구조다. 이 과정에서 화자가 내뱉은 깊은 한숨이나 미세하게 떨리는 목소리, 냉소적인 웃음 같은 비언어적 신호들은 모두 삭제되고 무미건조한 텍스트만 남는다. 스텝오디오 2.5는 이 비효율적인 경로를 완전히 걷어냈다. 텍스트로 변환하는 중간 단계 없이 오디오 특징값에서 직접 화자의 의도를 파악하는 엔드투엔드(End-to-End, 입력부터 출력까지 단일 모델로 처리) 구조를 구현해 정보 손실을 원천적으로 차단했다.

파라언어(Paralinguistics, 언어 외적인 음향 정보) 인식 기능의 탑재가 기술적 차별점의 핵심이다. 단순히 무슨 단어를 선택했느냐가 아니라 어떤 방식으로 말했느냐를 읽어내는 능력이다. 톤의 높낮이, 말하는 속도, 문장 사이의 정적, 갑작스러운 웃음 같은 비언어적 음향 정보를 실시간으로 분석한다. 개발자 커뮤니티에서는 이를 두고 텍스트 기반 추론의 물리적 한계를 넘었다는 반응이 뜨겁다. 낮은 톤에서 느껴지는 깊은 피로감이나 급격히 빨라진 말속도에서 묻어나는 좌절감을 모델이 직접 감지해 대응할 수 있기 때문이다. 이는 AI가 인간의 언어를 넘어 정서적 맥락까지 실시간으로 동기화한다는 점에서 매우 공격적인 진화다.

파라언어 이해 벤치마크 점수 82.18은 성능을 뒷받침하는 명확한 수치다. 이는 음성 속도와 감정, 화자의 연령대 같은 정밀한 음향 특징을 정확하게 포착하는 능력이 검증되었음을 의미한다. 기존 파이프라인 모델이 텍스트에 적힌 단어들을 조합해 화자가 화난 상태일 것이라고 추측하는 간접적인 방식이었다면, 스텝오디오 2.5는 소리 그 자체의 물리적 특성을 분석해 화자의 심리 상태를 확신하는 직접적인 방식을 취한다. 개발자들 사이에서는 이제 프롬프트에 복잡한 감정 지시어를 일일이 넣는 대신, 사용자의 실제 음성 상태에 유연하게 반응하는 인터페이스를 설계할 수 있게 되었다는 점이 가장 실질적인 변화로 꼽힌다. 특히 오디오 특징값을 직접 다루는 방식은 텍스트 기반 모델이 결코 흉내 낼 수 없는 영역이며, 텍스트 로그에 찍히지 않는 미묘한 감정 변화를 변수로 활용해 훨씬 더 인간에 가까운 상호작용 경험을 구축할 수 있게 되었다.

실시간 대화 환경에서의 사용자 경험 변화

장면 전체의 분위기를 먼저 잡고 그 안에서 세부 음향을 깎아내는 방식이 이번 모델의 특징이며, 이는 정해진 톤으로 문장을 읽어 내려가던 기존 음성 합성 방식과는 차원이 다르다. 개발자들 사이에서 가장 뜨거운 지점은 바로 global scene-level tonal setting(전체적인 감정 톤 설정)과 intra-sentence detail sculpting(문장 내 미세한 음향 디테일 조각)의 결합이다. 단순히 슬픈 톤으로 말하라는 명령을 넘어 대화의 맥락에 맞는 전체적인 정서를 설정하고 문장 중간중간에 아주 세밀한 호흡이나 억양의 변화를 주는 식이다. 이런 제어권의 확장은 그동안 AI 음성에서 느껴졌던 특유의 기계적인 단조로움을 깨뜨리는 결정적인 장치가 된다. 실무자들은 이제 텍스트로 정의할 수 없는 미묘한 감정의 굴곡을 오디오 레벨에서 직접 설계할 수 있게 되었으며 이는 곧 콘텐츠의 몰입감으로 직결된다. 텍스트의 의미를 넘어 소리의 질감까지 제어한다는 점에서 개발자들의 기대감이 높다.

사용자의 상태를 실시간으로 읽어내는 파라링구이스틱(Paralinguistics, 비언어적 음향 정보) 인지 능력은 더욱 놀라운 지점이다. 텍스트로 변환된 결과물만 보는 것이 아니라 목소리의 톤, 말하는 속도, 일시적인 멈춤, 한숨이나 웃음소리 같은 오디오 특징을 직접 분석한다. 사용자가 낮은 톤으로 말하면 피로함을 느끼고 있다고 판단하거나 말이 빨라지면 급박한 상황임을 인지해 그에 맞는 반응을 내놓는다. 커뮤니티에서는 이를 두고 단순한 챗봇을 넘어 상대의 기분을 살피는 공감형 인터페이스로의 진화라고 평가한다. 텍스트 기반 모델이 놓쳤던 화자의 숨은 의도와 감정 상태를 소리 그 자체로 포착한다는 점이 실시간 인터랙션의 밀도를 완전히 바꾼다. 소리의 높낮이와 속도라는 물리적 신호를 감정이라는 심리적 상태로 치환해 반응하는 과정이 매우 매끄럽게 연결된다. 이는 기존의 STT-LLM-TTS 파이프라인 구조에서는 불가능했던 영역이다.

실제 모바일 앱 기반의 대화 환경에서 인간 평가단을 통해 성능 검증을 마쳤다는 점은 이러한 기술적 진보가 단순한 벤치마크 수치를 넘어섰음을 보여준다. 실제 사용자가 앱을 통해 대화하며 느끼는 자연스러움과 반응의 적절성을 직접 평가받은 결과이며 이는 실험실 데이터가 아닌 실제 필드에서의 효용성을 입증한 셈이다. 개발자들은 이제 API 연결만으로도 사용자의 감정 상태에 따라 유연하게 대응하는 고도의 UX를 구현할 수 있게 되었다. 단순히 빠른 응답 속도에 집착하던 시대를 지나 이제는 얼마나 인간답게 반응하는가라는 질적인 차원으로 경쟁의 축이 이동하고 있다. 실시간으로 변하는 사용자의 감정 조각들을 포착해 즉각적으로 반영하는 경험은 모바일 인터페이스의 상호작용 방식을 근본적으로 재정의하며 새로운 서비스 가능성을 연다. 특히 모바일 환경의 제약 속에서도 인간에 가까운 반응성을 확보했다는 점이 시장의 주목을 받는다.

한국 AI 실무자가 주목해야 할 실시간 음성 AI의 방향성

STT로 글자를 따고 LLM이 추론한 뒤 다시 TTS로 내보내던 기존 파이프라인 방식에서 벗어난 것이 이번 모델의 핵심이다. 이번 모델에서 바뀐 핵심은 오디오 입출력을 하나로 통합한 엔드투엔드(End-to-End) 구조다. 개발자들 사이에서는 이제 단순한 지연 시간 단축보다 데이터가 흐르는 구조적 변화에 더 주목하는 분위기다. 오디오가 그대로 들어가고 그대로 나오는 방식은 중간 단계에서 소실되던 비언어적 정보들을 보존하며 실시간성을 극대화한다. 이는 단순한 속도 개선이 아니라 음성 데이터의 본질을 처리하는 방식의 전환이다.

응답의 질을 완전히 바꾸는 설계는 음성 이해와 생성을 강화학습(Reinforcement Learning)으로 깊게 융합한 결과다. 전체적인 장면의 톤을 설정하는 글로벌 씬 레벨 토널 세팅(Global scene-level tonal setting)과 문장 내부의 세밀한 소리를 깎아내는 인트라 센텐스 디테일 스컬프팅(Intra-sentence detail sculpting)이 동시에 작동한다. 한국어 서비스 개발자들은 여기서 새로운 가능성을 본다. 화자의 미묘한 감정 상태에 따라 응답의 톤을 실시간으로 조정하는 맞춤형 인터페이스 구현이 가능해지기 때문이다. 단순히 정해진 페르소나를 연기하는 수준을 넘어 상황에 맞는 유연한 대응이 핵심이 된다.

파라링구이스틱(Paralinguistics, 준언어적 정보) 인지 능력은 더욱 뜨거운 논쟁이 벌어지는 지점이다. 한숨이나 웃음, 말하는 속도와 톤 같은 비언어적 요소들을 분석해 사용자의 기분과 숨은 의도를 파악하는 기술이다. 이번 모델이 파라링구이스틱 이해 벤치마크에서 82.18점을 기록하며 보여준 성능은 텍스트 변환 없이 오디오 특징을 직접 분석했을 때의 위력을 증명한다. 낮은 톤에서 느껴지는 피로감이나 빠른 말속도에서 읽히는 좌절감을 AI가 즉각적으로 포착한다는 점은 서비스의 몰입감을 결정짓는 결정적 요소가 된다. 텍스트로는 절대 잡을 수 없는 영역이다.

기술적 지연 시간을 몇 밀리초 줄이느냐가 아니라 화자의 감정적 뉘앙스를 얼마나 정교하게 복제하고 이해하느냐가 한국 AI 실무자들이 마주할 다음 격전지다. 텍스트 기반의 논리적 완결성보다 음성 기반의 정서적 연결감이 서비스의 경쟁력을 가르는 기준이 될 것이다. 감정적 맥락을 이해하는 모델의 등장은 단순한 기능 추가가 아니라 한국어 서비스의 사용자 경험을 한 단계 높이는 기술적 이정표가 된다. 실무자들은 이제 모델의 추론 능력만큼이나 오디오 데이터가 가진 감정적 레이어를 어떻게 처리하고 서비스에 녹여낼지 고민해야 하는 시점에 서 있다.