노쇼 줄이는 의료 AI, Nova 2 Sonic의 '말귀' 알아듣는 음성 에이전트

미국 의료 현장의 노쇼(No-show) 5-30%를 해결하는 음성 에이전트

병원 예약 확인 전화를 받거나 딱딱한 ARS 안내 멘트를 듣다 보면 누구나 답답함을 느낀다. 환자는 단순히 일정을 바꾸고 싶을 뿐이지만, 상담원과 연결될 때까지 무작정 대기하거나 복잡한 번호를 여러 번 눌러야 하는 불편함을 겪는다. 미국 의료 서비스 현장에서도 이러한 소통의 단절은 심각한 운영 손실로 이어진다. 전문 분야에 따라 차이가 있지만 미국 내 평균 예약 부도율(no-show rate)은 5~30% 수준으로 집계된다. 예약 시간의 공백은 병원 입장에서 매출 감소뿐 아니라 의료진의 유휴 시간 발생과 다른 긴급 환자의 진료 지연으로 이어진다.

기존의 단순 알림 문자나 일방적인 안내 방송으로는 환자의 변심이나 갑작스러운 일정 변경에 대응하기 어렵다. 결국 사람이 일일이 전화를 돌려 확인하는 수작업에 의존하게 되는데, 이는 환자 수가 늘어날수록 확장 가능성이 떨어진다. 이 문제를 해결하기 위해 Amazon Nova 2 Sonic(음성-음성 처리 모델)과 Amazon Bedrock AgentCore(에이전트 실행 환경)를 결합한 실무형 음성 에이전트가 도입되었다. 이 시스템은 환자와 자연스럽게 대화하며 예약을 확정하거나 변경하고, 진료에 필요한 기초 건강 정보까지 수집하는 업무를 자동화한다.

에이전트의 작동 방식은 실제 상담원의 업무 흐름을 따른다. 전화가 연결되면 먼저 환자의 음성 특성을 분석해 본인 인증을 수행하고, 현재 예약된 일정을 안내한다. 환자가 일정을 변경하고 싶어 하면 사용 가능한 시간대를 조회해 제시하고, 확정된 시간을 예약 시스템에 즉시 반영한다. 또한 진료 전 확인이 필요한 건강 상태나 주의사항을 질문하여 데이터를 수집함으로써 의료진이 진료 전에 환자 상태를 미리 파악할 수 있게 돕는다. 만약 환자가 불안함을 느끼거나 에이전트가 해결할 수 없는 특이 케이스가 발생하면, 즉시 숙련된 상담원에게 전화를 넘기는 에스컬레이션 기능을 통해 서비스 단절을 막는다.

이러한 에이전트를 실제 의료 현장의 전화망에 올리기 위해서는 Amazon Connect Customer와 같은 텔레포니(Telephony, 전화 통신 서비스) 서비스와의 통합이 필요하다. 텔레포니 서비스가 공중전화망과 AI 에이전트 사이의 가교 역할을 수행하며, 이를 통해 에이전트는 실시간으로 음성 데이터를 송수신하며 대화를 이어간다. 병원은 이 구조를 통해 수백 명의 환자에게 동시에 전화를 걸어 예약을 관리하는 대규모 자동화 체계를 구축하고, 인적 자원을 환자 케어 업무에 집중시킬 수 있다.

STT-LLM-TTS 체인을 끊어낸 Nova 2 Sonic의 네이티브 음성 처리

기존의 음성 AI 방식은 음성 인식(STT, Speech-to-Text), 추론(LLM, Large Language Model), 음성 합성(TTS, Text-to-Speech)이라는 세 가지 서비스를 순차적으로 연결해 작동한다. 이 구조에서는 각 서비스가 데이터를 주고받는 핸드오프 과정에서 지연 시간이 누적된다. 무엇보다 음성을 텍스트로 변환하는 전사 단계에서 환자의 떨리는 목소리나 망설임, 긴급함 같은 비언어적 맥락이 모두 삭제된다. 결과적으로 LLM은 환자가 어떤 감정으로 말했는지는 알지 못한 채 오직 텍스트 내용만 처리하게 되며, 이는 의료 현장에서 환자의 상태를 오판할 위험을 높인다.

Amazon Nova 2 Sonic은 이러한 체인을 끊고 음성을 직접 처리하는 Speech-to-Speech(S2S, 음성-대-음성) 방식을 채택했다. 별도의 텍스트 변환 과정 없이 단일 모델 내에서 음성 입력을 그대로 받아 추론하고 다시 음성으로 출력하는 네이티브 처리 구조다. 텍스트라는 중간 매개체를 제거했기에 응답 속도가 빨라졌을 뿐 아니라 음성의 뉘앙스를 그대로 보존할 수 있다. 환자가 예약 변경을 요청하며 머뭇거리는 톤이나 불안해하는 기색을 모델이 직접 감지하여 응답 전략에 즉각 반영하는 것이 가능하다.

실무 환경에서 특히 유용한 점은 소음 처리와 언어 대응 능력이다. Nova 2 Sonic은 가정집이나 병원 현장에서 흔히 발생하는 배경 소음을 효과적으로 처리하며 다양한 억양의 영어 음성을 인식하도록 설계되었다. 특히 별도의 설정 변경 없이 대화 도중에 환자가 선호하는 언어로 실시간 전환이 가능하다. 운영자가 언어별로 별도의 모델을 배치하거나 설정을 매번 바꿀 필요 없이 단일 세션에서 다국어 대응이 가능해지므로 인프라 관리 공수가 줄어든다.

양방향 스트리밍으로 구현한 실시간 반응성

대화의 끊김 없는 흐름은 양방향 스트리밍(Bidirectional Streaming) 기술을 통해 확보했다. 이는 서버와 클라이언트가 연결을 유지한 채 실시간으로 오디오 데이터를 주고받는 방식으로, 텍스트 변환과 생성 단계를 기다릴 필요가 없다. 전사 과정에서 발생하는 정보 누락을 원천적으로 차단해 실제 사람과 통화하는 것과 유사한 반응성을 보여준다.

텍스트라는 중간 매개체를 없애면서 음성 데이터가 가진 원래의 정보량을 추론 과정에 온전히 투입해 대화의 밀도를 높였다. 환자가 예약 시간을 변경하며 우려 섞인 톤을 보이면 에이전트가 이를 즉시 감지해 더 세심한 안내를 제공하는 식으로 응답 전략을 수정한다.

단순한 정보 전달을 넘어 환자의 심리적 상태나 미묘한 뉘앙스가 중요한 의료 환경에서는 S2S 모델의 도입 여부가 상담의 질을 결정한다. 텍스트 기반 챗봇이 잡아내지 못하는 비언어적 맥락이 실제 환자 응대에 얼마나 영향을 주는지를 기준으로 도입 가능성을 판단해야 한다.

도구 중심 설계와 서버리스 인프라의 실무적 이점

복잡한 예약 로직을 AI가 처리하게 만들기 위해 Strands Agents SDK의 `BidiAgent` 클래스를 사용한다. 이 클래스는 Nova 2 Sonic과 주고받는 양방향 음성 스트리밍의 전체 흐름을 관리하는 제어 장치 역할을 한다. 개발자는 음성 데이터의 입출력 단계를 일일이 설계하는 대신 이 클래스에 시스템 프롬프트와 도구 목록을 전달하여 설정을 완료한다.

에이전트가 수행하는 작업은 Python 함수 기반의 도구들로 구현되어 있다. 총 7개의 의료 전용 도구가 구현되었으며 각 함수에는 `@tool` 데코레이터가 붙어 있다. Nova 2 Sonic은 환자의 말을 듣고 어떤 함수를 실행할지 스스로 판단한다. 예를 들어 환자가 날짜 변경을 요청하면 `find_available_slots` 함수를 호출해 빈 시간을 조회하고, 최종 결정이 내려지면 `book_appointment_slot` 함수로 예약을 확정한다. 이런 구조는 새로운 기능이 필요할 때 전체 모델을 다시 학습시키지 않고 함수 하나만 추가하면 된다는 이점을 준다.

인프라는 관리 부담을 줄이기 위해 AWS 서버리스 스택을 사용한다. 사용자 인증은 Amazon Cognito가 담당하며 환자 기록과 예약 시간대 같은 데이터는 Amazon DynamoDB에 저장한다. 상담원 연결이 필요한 긴급 상황에서는 Amazon SNS를 통해 알림을 보낸다. 서버를 직접 운영하지 않는 서버리스 방식이기에 호출량에 따라 비용이 유동적으로 변하며 인프라 관리 공수가 최소화된다.

전체 시스템 배포는 AWS CDK 스택을 통해 컨테이너 기반 서버리스 방식으로 이루어진다. 인프라 구성 코드를 통해 동일한 환경을 빠르게 복제하거나 확장할 수 있다. 실제 구현에 필요한 전체 소스 코드는 GitHub 저장소에서 확인할 수 있다.

한국 의료 AI 실무자를 위한 도입 판단 기준

한국어 특유의 말끝 흐리기나 망설이는 톤을 AI가 정확히 인식하는지는 예약 상담 현장에서 매우 중요하다. 환자가 "음, 그때쯤이면 될 것 같은데..."라고 말할 때의 불확실성을 읽어내야 하기 때문이다. Nova 2 Sonic은 음성을 텍스트로 바꾸지 않고 직접 처리하는 S2S 방식이라 이런 비언어적 맥락을 보존한다. 한국어의 복잡한 어미 변화와 감정 뉘앙스가 중요한 의료 예약 도메인에서 이 모델이 기존 텍스트 기반 방식보다 얼마나 더 정확하게 환자의 의도를 파악하는지 검토할 필요가 있다.

실무자가 실제 환경에서 이를 검증하려면 먼저 AWS CDK(Cloud Development Kit)를 통해 필요한 자원을 생성하는 프로비저닝 과정을 거친다.

bash

cdk deploy

인프라 구축이 끝나면 테스트를 위한 사용자 계정을 생성해 실제 응답 속도와 톤을 확인한다.

bash

aws cognito-idp admin-create-user --user-pool-id <UserPoolId> --username <Username>

이 과정을 통해 텍스트 기반 챗봇이 놓쳤던 환자의 불안함이나 급박함이 음성 응답에 어떻게 반영되는지 직접 측정할 수 있다. 실제 통화 환경과 유사한 소음 조건에서 모델이 환자의 목소리를 얼마나 정확하게 분리해내는지 확인하는 것이 테스트의 핵심이다.

도입 단계는 리스크 수준에 따라 나누는 것이 효율적이다. 처음에는 단순한 예약 변경이나 확정 같은 저위험(Low-risk) 작업부터 적용하고, 이후 환자의 이전 증상을 확인하거나 방문 전 주의사항을 묻는 건강 정보 수집 같은 중위험(Mid-risk) 단계로 도구를 확장한다. 단계적 확장은 의료진의 운영 부담을 줄이면서 AI의 응대 정확도를 점진적으로 높이는 전략이다.

최종 도입 여부는 ROI(Return on Investment) 계산에서 결정된다. 단순히 모델의 토큰 비용만 볼 것이 아니라 전화망(PSTN, 공중 전화 교환망) 연동 비용을 함께 계산해야 한다. Nova 2 Sonic의 토큰 비용과 전화망 유지 비용의 합계가 상담원 인건비 절감액보다 낮은지 확인하는 것이 핵심 기준이다.

음성 AI 도입의 성패는 텍스트로 변환된 결과값이 아니라 말 속에 담긴 망설임과 톤 같은 비언어적 맥락을 얼마나 정확히 처리하느냐에 달려 있다. 텍스트 기반 챗봇으로는 해결할 수 없는 정서적 교감이 필수적인 도메인이라면 `BidiAgent`를 활용해 오디오 스트리밍과 도구를 오케스트레이션하는 S2S 모델 구조가 가장 현실적인 대안이 된다.

단순히 응답 속도를 높이는 것을 넘어 환자의 미묘한 뉘앙스까지 읽어내야 하는 영역인지 판단하는 것이 실무적인 도입의 시작점이다. 결국 비언어적 맥락의 필요 여부가 기술 스택과 비용 구조를 결정하는 최종 기준이 된다.