Sakana AI, 실시간 음성 대화의 지연 시간과 지능을 동시에 잡은 KAME 공개

음성 비서와 대화할 때 느끼는 미묘한 답답함은 기술적 딜레마에서 온다. 즉각적으로 반응하는 모델은 답변이 얕고, 똑똑한 모델은 답변을 내놓기까지 한참을 기다려야 한다. 마치 말을 빨리 하려는 사람과 신중하게 생각하려는 사람 사이의 간극과 같다. 최근 도쿄의 인공지능 연구소인 Sakana AI(일본의 AI 연구 기업)는 이 두 가지 상충하는 문제를 해결하기 위해 KAME(지식 접근 모델 확장, Knowledge-Access Model Extension)라는 새로운 구조를 선보였다.

KAME의 기술적 사실과 구조

KAME는 두 개의 독립적인 모듈이 동시에 작동하는 탠덤(Tandem, 앞뒤로 연결된) 시스템이다. 앞단에는 Moshi(KyutAI에서 개발한 실시간 음성 대화 모델) 기반의 음성 처리 모듈이 배치되어 80밀리초 단위로 오디오 토큰을 처리하며 즉각적인 반응을 시작한다. 핵심은 기존의 3단계 구조(입력 오디오, 내부 독백, 출력 오디오)에 오라클 스트림(Oracle Stream, 정답에 가까운 정보를 제공하는 흐름)이라는 네 번째 통로를 추가한 점이다. 뒷단에서는 STT(음성을 텍스트로 변환하는 기술)가 사용자의 말을 실시간으로 받아 LLM(거대 언어 모델)에 전달하고, LLM은 이를 바탕으로 답변의 힌트인 오라클을 생성해 앞단으로 보낸다. 앞단 모델은 이 오라클을 참고해 말하는 도중에도 답변 내용을 실시간으로 수정하며 완성도를 높인다.

기존 방식과의 비교 및 성능 차이

예전에는 음성 대화 시스템을 구축할 때 두 가지 극단적인 선택지밖에 없었다. 하나는 Moshi와 같은 직접적인 음성-음성 모델로, 응답 속도는 매우 빠르지만 방대한 지식을 담기에는 모델의 용량이 부족했다. 다른 하나는 ASR(자동 음성 인식)과 LLM, TTS(텍스트를 음성으로 변환하는 기술)를 순차적으로 연결하는 캐스케이드(Cascaded, 단계별로 처리하는) 방식이다. 이 방식은 지식 수준은 높지만 사용자가 말을 마칠 때까지 기다려야 하므로 평균 2.1초라는 지연 시간이 발생한다. KAME는 이 두 방식의 장점만을 취했다. 사용자가 말을 하는 도중에도 즉각적으로 반응하면서, 뒷단의 LLM이 생성한 고품질 정보를 실시간으로 주입받아 답변의 정확도를 비약적으로 끌어올렸다. MT-Bench(다중 턴 질의응답 성능 평가) 테스트 결과, Moshi 단독 모델은 2.05점을 기록한 반면, KAME는 GPT-4.1을 뒷단에 연결했을 때 6.43점, Claude-Opus-4.1을 연결했을 때 6.23점이라는 높은 성능을 보였다. 이는 기존의 우수한 캐스케이드 시스템인 Unmute(GPT-4.1 기반)의 7.70점과 비교해도 지연 시간 없이 대등한 수준에 도달했음을 의미한다.

개발자를 위한 활용성과 영향

개발자가 바로 체감하는 변화는 KAME의 유연한 확장성이다. 이 시스템은 특정 LLM에 종속되지 않는 백엔드 애그노스틱(Back-end Agnostic, 특정 모델에 얽매이지 않는) 구조를 채택했다. 학습 단계에서는 GPT-4.1-nano를 사용했지만, 실제 서비스 환경에서는 재학습 없이도 Claude-Opus-4.1이나 Gemini-2.5-flash(Google의 경량화된 고성능 모델)를 자유롭게 교체해 사용할 수 있다. 연구팀은 이를 위해 시뮬레이티드 오라클 증강(Simulated Oracle Augmentation, 가상의 정답 데이터를 생성해 학습시키는 기법)이라는 방식을 도입해 5만 6천여 개의 합성 대화 데이터를 학습시켰다. 이를 통해 사용자는 작업의 성격에 따라 가장 적합한 LLM을 선택해 연결하기만 하면 된다. KAME에 대한 자세한 정보는 공식 논문과 GitHub 저장소에서 확인할 수 있다.

실시간 대화의 본질은 지연 시간과 지능 사이의 타협이 아니라, 두 흐름을 얼마나 정교하게 동기화하느냐에 달려 있다.

Sakana AI, 실시간 음성 대화의 지연 시간과 지능을 동시에 잡은 KAME 공개

KAME의 기술적 사실과 구조

기존 방식과의 비교 및 성능 차이

개발자를 위한 활용성과 영향

관련 기사