Gemma 4 31B와 Cerebras가 구현한 실시간 음성 루프

AI 음성 비서와 대화하다 보면 질문을 던진 뒤 상대가 답할 때까지 발생하는 묘한 정적이 있다. 이 짧은 대기 시간은 대화의 흐름을 끊고 기계와 대화하고 있다는 이질감을 만든다. 이러한 불편을 해결하기 위해 Google DeepMind의 Gemma 4 31B와 Cerebras의 추론 엔진, Qwen의 TTS를 결합한 실시간 음성-음성 루프가 구축되었다. 이는 사용자가 인간과의 상호작용에서 기대하는 즉각적인 반응 속도를 구현해 대화의 흐름이 끊기지 않고 자연스럽게 이어지게 만드는 것을 목표로 한다.

시스템의 두뇌 역할은 Google DeepMind가 개발한 Gemma 4 31B 언어 모델이 수행한다. 이 모델이 텍스트를 생성하는 시간을 단축하기 위해 Cerebras의 고속 추론 엔진을 인프라로 적용했다. 모델이 생성한 텍스트는 Qwen의 TTS(Text-to-Speech, 텍스트를 음성으로 변환하는 기술)를 거쳐 즉각적인 음성으로 출력된다. 오픈 소스 생태계의 핵심 모델과 고속 추론 인프라를 결합해 인간의 반응 속도에 가까운 응답성을 확보한 구조다. 각 계층을 개발자가 직접 검토하고 수정하며 확장할 수 있도록 설계해 최적화 효율을 높였다.

해당 기술 스택은 단순한 시연 영상을 위한 데모 수준을 넘어 실제 물리 환경에 대규모로 배치되었다. Reachy Mini 로봇 9,000대 이상에 이 음성-음성 파이프라인이 적용되어 현장에서 작동하고 있다. 로봇과 같은 피지컬 AI(Physical AI, 물리적 신체를 가진 인공지능) 환경에서 응답 속도는 단순한 외관적 개선이 아니다. 이는 사용자가 로봇과의 상호작용이 실제로 살아있다고 느끼게 만드는 핵심적인 기술적 판단 기준이 된다. 9,000대라는 배치 규모는 이 조합이 실제 현장에서 요구되는 성능과 안정성을 충족했음을 증명한다.

개발자들이 직접 성능을 검증하고 자신의 환경에 맞게 실험할 수 있도록 관련 자원을 외부에 공개했다. Hugging Face Space 데모 페이지인 https://huggingface.co/spaces 를 통해 실시간 응답성을 직접 체험할 수 있다. 또한 `huggingface/speech-to-speech` 저장소를 통해 전체 구현 코드를 공개했다. 개발자는 이 저장소를 통해 모델의 연결 방식과 추론 최적화 과정을 확인하고 자신의 프로젝트에 적용할 수 있다. 오픈 소스 모델과 인프라의 결합이 차세대 대화형 AI의 기반이 될 수 있음을 실제 코드로 보여준 사례다.

모듈형 구조의 speech-to-speech 파이프라인

개발자가 특정 모델의 응답 품질에 만족하지 못해 즉시 다른 오픈 소스 모델로 교체하겠다는 결정을 내린 순간, 전체 시스템을 다시 설계해야 하는 부담은 사라졌다. 이번 프로젝트는 실시간 음성-음성(speech-to-speech, 사람이 말하면 AI가 즉시 음성으로 답하는 방식) 파이프라인 형태로 구축되었다. 사용자의 음성 입력이 들어오면 이를 처리해 언어 모델의 추론을 거쳐 다시 음성으로 출력하는 전 과정이 하나의 연결된 흐름으로 작동한다. 입력 단계에서 수집된 음성 신호는 텍스트로 변환되고, 이 텍스트가 모델의 입력값이 되어 적절한 답변을 생성하며, 최종적으로 다시 음성 신호로 바뀌어 출력된다. 이 구조는 입력과 처리, 출력이라는 세 단계의 명확한 구분선을 가진다.

시스템의 각 구성 요소는 모듈형(modular, 부품처럼 독립적으로 분리되어 교체 가능한 구조)으로 설계되었다. 개발자는 전체 코드를 수정하지 않고도 특정 단계의 모델이나 엔진만 선택적으로 바꿀 수 있다. 모든 구성 요소가 오픈 소스로 제공되므로 외부 라이브러리를 가져와 결합하거나 자체 개발한 모듈을 끼워 넣는 것이 가능하다. 예를 들어 텍스트를 음성으로 바꾸는 엔진의 음색이나 언어 설정을 변경하고 싶다면 해당 모듈만 교체하면 된다. 이러한 개방성은 특정 기업의 폐쇄적인 API에 종속되지 않고 기술 스택을 자유롭게 제어할 수 있는 환경을 만든다. 이는 개발자가 다양한 모델의 성능을 빠르게 비교 검증하는 시간을 단축시킨다.

이러한 유연한 구조는 제품의 성격에 따라 최적의 스택을 조정할 수 있는 확장성을 제공한다. 단순한 음성 비서부터 복잡한 물리적 움직임이 필요한 로봇, 혹은 특정 가설을 검증해야 하는 연구 프로젝트까지 동일한 기본 골격을 사용할 수 있다. 로봇의 경우 음성 응답 파이프라인 끝단에 하드웨어 제어 모듈을 추가해 말하는 동시에 팔을 움직이는 동작을 수행하게 만든다. 음성 비서라면 응답의 정확도와 속도에 최적화된 모델 조합을 구성한다. 제품군마다 요구되는 응답 속도와 정확도가 다르므로 상황에 맞는 모델 조합을 빠르게 실험하고 적용하는 것이 가능하다.

작동 방식은 음성 입력에서 시작해 LLM 추론을 거쳐 음성 출력으로 이어지는 완전한 오픈 루프(open loop, 외부 피드백이나 제약 없이 입력이 출력으로 바로 이어지는 개방형 회로)를 형성한다. 음성 데이터가 텍스트로 변환되어 모델에 전달되고, 모델이 생성한 텍스트가 다시 음성 합성 엔진을 통해 소리로 변환되는 과정이 실시간으로 일어난다. 각 단계 사이의 데이터 인터페이스가 표준화되어 있어 데이터 병목 현상을 파악하고 특정 구간의 성능만 집중적으로 개선하기 쉽다. 모듈 간의 결합도를 낮춘 설계 덕분에 개별 요소의 업데이트가 전체 시스템의 안정성을 해치지 않는다. 개발자는 각 모듈의 입출력 값만 확인하면 되므로 시스템 전체의 복잡도를 낮게 유지하며 기능을 확장할 수 있다.

P95 지연 시간 해결이 만드는 '살아있는' 상호작용

AI 음성 비서와 대화하다 보면 대답이 바로 나오지 않고 몇 초간 정적이 흐르는 순간이 있다. 사용자는 기기가 멈춘 것인지 아니면 생각을 하는 중인지 알 수 없어 대화의 흐름을 놓치게 된다. 실제 많은 상용 시스템은 중앙값 지연 시간, 즉 전체 응답의 중간 순위에 해당하는 속도는 준수하게 유지한다. 하지만 P95 지연 시간이라고 부르는 상위 5%의 느린 응답 구간에서는 수 초의 지연이 발생한다. P95는 전체 데이터 중 가장 느린 5%의 사례를 지칭하며, 이는 사용자가 체감하는 최악의 경험을 결정하는 결정적인 지표가 된다. 평균치가 낮더라도 이 P95 구간의 수치가 높으면 사용자는 시스템이 불안정하다고 느낀다.

이러한 지연 현상은 도구 호출이나 멀티모달 단계에서 더욱 심화되는 경향을 보인다. 도구 호출은 모델이 외부 API나 함수를 실행해 필요한 정보를 가져오는 과정이며, 멀티모달은 텍스트 외에 이미지나 음성 등 다양한 형태의 데이터를 동시에 처리하는 방식이다. 특히 여러 번의 턴이 오가는 복잡한 상호작용에서는 각 단계의 지연 시간이 누적되어 대화의 끊김이 눈에 띄게 늘어난다. 평균 속도가 아무리 빨라도 가끔 발생하는 수 초의 멈춤은 대화의 신뢰성을 급격히 떨어뜨리고 기계적인 이질감을 만든다. 이는 단순히 처리 시간이 길어지는 문제가 아니라, 상호작용의 리듬이 깨지면서 발생하는 사용자 경험의 단절이다.

Cerebras는 이 파이프라인에서 가장 큰 병목 지점인 언어 모델의 응답 시간을 단축해 이 문제를 해결했다. 추론 안정성을 확보해 롱테일 구간의 응답 속도를 개선한 것이 핵심이다. 롱테일은 확률적으로 드물게 발생하지만 한 번 나타나면 매우 큰 영향을 주는 극단적인 지연 사례를 뜻한다. 이 구간의 불확실성을 제거해야만 사용자는 비로소 끊김 없는 상호작용을 경험할 수 있다. 추론 속도가 일정하게 유지되면 전체 시스템의 응답성이 예측 가능해지며, 이는 단순한 수치상의 속도 향상을 넘어 대화의 자연스러움을 완성하는 필수적인 기술적 토대가 된다.

피지컬 AI 환경에서 이러한 응답성 최적화는 단순한 외관상의 개선이나 편의 기능이 아니다. 로봇과 같은 물리적 실체와 상호작용할 때 반응 속도가 일정하지 않으면 사용자는 심리적 불안감을 느끼거나 상호작용의 타이밍을 놓쳐 조작에 실패할 가능성이 크다. Cerebras를 통해 언어 모델의 추론 시간을 극단적으로 줄이고 안정화함으로써, 상위 5%의 느린 응답이 주는 불확실성을 효과적으로 제거했다. 결과적으로 최악의 상황에서도 일정한 반응 속도를 유지하는 예측 가능성은 로봇이 단순한 기계가 아니라 살아있는 존재처럼 느껴지게 만드는 핵심적인 기술적 판단 기준이 된다.

피지컬 AI 실배치를 위한 응답성 기준의 변화

웹 서비스의 AI는 몇 초 늦게 답해도 새로고침을 하면 되지만, 눈앞의 로봇은 1초만 멈춰도 고장 났다고 생각한다. 물리적 신체를 가진 Embodied AI(엠바디드 AI)에게 응답성은 단순한 편의 기능이 아니라 상호작용의 생존 조건이다. 현재 9,000대 이상의 Reachy Mini 로봇에 적용된 실시간 음성-음성 파이프라인은 이러한 응답성 최적화에 집중한다. 사용자가 말을 끝낸 뒤 AI가 반응하기까지의 공백을 없애야만 비로소 기계와의 대화가 아닌 살아있는 존재와의 상호작용이라는 느낌을 줄 수 있다. 이는 단순한 외관상의 개선이 아니라 피지컬 AI가 실제 환경에서 작동하기 위해 반드시 해결해야 하는 기술적 전제다. 로봇이 사용자의 말을 듣고 반응하는 속도가 인간의 대화 템포와 일치하지 않을 때, 사용자는 심리적 거리감을 느끼며 이는 곧 제품의 사용성 저하로 직결된다.

많은 시스템이 평균적인 응답 속도는 준수하게 유지하지만, 실제 현장에서는 P95(전체 응답 중 가장 느린 상위 5%의 지연 시간) 구간에서 발생하는 수 초의 지연이 치명적이다. 특히 AI가 외부 도구를 호출하는 tool calls(툴 콜, 모델이 특정 기능을 수행하기 위해 외부 API를 사용하는 과정)나 여러 단계의 멀티모달 처리가 필요한 상황에서 이 지연 시간은 더욱 심화된다. 평균값이 낮더라도 간헐적으로 발생하는 롱테일(long tail, 드물게 발생하는 극단적인 지연 사례) 현상은 대화의 흐름을 끊고 사용자에게 불확실성을 준다. 로봇과 같은 물리적 장치에서는 이러한 예측 불가능한 지연이 곧 시스템의 신뢰도 하락으로 이어진다. 사용자는 AI가 항상 빠르게 답하는 것보다, 언제나 일정한 속도로 답하는 것을 더 자연스럽게 받아들인다. 따라서 개발자는 중앙값의 수치를 낮추는 것보다 최악의 상황에서도 일정 수준의 속도를 보장하는 예측 가능한 성능 확보에 우선순위를 둔다.

이러한 응답성 확보를 위한 기술적 방향은 단순한 운영 비용 절감이 아닌 저지연(low latency)과 성능의 안정성에 맞춰져 있다. 오픈 소스 모델과 오픈 인프라, 그리고 돌파구적인 추론 속도를 결합하는 방식이 차세대 대화형 AI의 기반이 된다. 개발자는 특정 기업의 폐쇄적인 API에 의존하는 대신, 구성 요소를 모듈형으로 설계하여 필요에 따라 교체하며 최적의 응답 속도를 찾아낼 수 있다. 이는 하드웨어 가속기와 최적화된 모델이 결합했을 때 비로소 실시간성에 가까운 경험을 대규모로 구현할 수 있음을 보여준다. 피지컬 AI의 실배치 기준은 이제 얼마나 거대한 파라미터를 가진 모델을 쓰느냐에서 얼마나 지연 없이 일관된 반응을 보이느냐로 이동한다. 오픈 소스 생태계의 결합은 이러한 고성능 추론 환경을 누구나 구축할 수 있게 하여 로봇과 인간의 상호작용 방식을 바꾼다. 예측 가능한 성능은 로봇이 단순한 도구를 넘어 사회적 상호작용이 가능한 개체로 진화하기 위한 핵심 지표가 된다.

AI 음성 비서와 대화할 때 느껴지는 어색한 정적은 단순한 처리 속도의 문제가 아니라 응답 시간의 불규칙한 편차에서 기인한다. Cerebras 추론 엔진과 Gemma 4 31B, Qwen TTS를 결합한 오픈 소스 루프는 P95 지연 시간을 안정적으로 제어하며 이 간극을 메웠다.

로봇과 같은 피지컬 AI의 실배치에서 자연스러운 상호작용을 결정하는 기술적 판단 기준은 평균값이 아닌 최악의 지연 시간을 얼마나 낮게 유지하느냐에 있다. 본문에 제시된 모듈형 파이프라인 설정을 통해 실제 환경에서의 응답성 지표를 직접 확인하며 최적화 기준을 수립할 수 있다.