17.7%. OpenAI의 음성 모델이 의료 전문 용어를 처리할 때 기록한 단어 오류율(WER)이다. 전문 용어 100단어 중 약 18단어를 잘못 알아듣는 수준으로, 이는 실제 의료 현장에서 투약량이나 증상을 오인해 치명적인 의료 사고로 이어질 수 있는 위험한 수치다. 그런데 덴마크의 헬스케어 AI 기업 Corti(코르티, 의료 전문 AI 솔루션사)가 공개한 새로운 모델은 이 수치를 1.4%까지 끌어내렸다.
Corti가 발표한 'Symphony for Speech-to-Text'는 실시간 받아쓰기와 대화 전사, 배치 오디오 처리에 최적화된 임상 등급의 음성 인식 모델이다. 주목할 점은 이 모델이 범용 모델들이 해결하지 못한 의료 전문 용어의 정밀도를 극단적으로 높였다는 사실이다. 일반적인 STT API가 의료 약어나 복잡한 처방 용량, 응급실의 소음 환경에서 빈번하게 실패하는 반면, Symphony는 임상 워크플로우를 위해 처음부터 설계된 전문 API 구조를 취한다. 이는 단순히 인식률을 높인 것을 넘어, 의료 AI가 '에이전틱 시대'로 진입하기 위해 반드시 필요한 고정밀 데이터 레이어를 구축했음을 의미한다.
Symphony for Speech-to-Text: 의료 용어 WER 1.4% 달성
개발팀이 공개한 수치는 여기서 갈린다. 코르티(Corti, 덴마크 기반 헬스케어 AI 기업)가 발표한 심포니 포 스피치-투-텍스트(Symphony for Speech-to-Text)의 영어 의료 용어 단어 오류율(WER, Word Error Rate)은 1.4%를 기록했다. 반면 범용 모델들의 수치는 확연히 높다. 오픈AI(OpenAI)의 음성 모델은 17.7%, 일레븐랩스(ElevenLabs)는 18.1%, 위스퍼(Whisper)는 17.4%, 파라키트(Parakeet)는 18.9%의 WER을 보였다. 결과적으로 의료 용어 처리 능력에서 범용 모델 및 API 대비 단어 오류율을 최대 93%까지 낮추며 수치상으로 압도적인 격차를 증명했다.
주목할 점은 이러한 수치 차이가 단순한 성능 개선을 넘어 의료 현장의 특수성을 반영하고 있다는 사실이다. 오픈AI의 위스퍼와 같은 범용 API는 광범위한 도메인의 전사 작업에는 충분한 성능을 보이지만, 복잡한 약물 용량이나 전문 의료 약어, 그리고 소음이 심한 응급실 환경과 같은 특수 상황에서는 빈번하게 인식 오류를 일으킨다. 그러나 심포니 포 스피치-투-텍스트는 임상 워크플로우를 위해 처음부터 설계된 전문 모델이다. 이 모델은 실시간 받아쓰기와 대화 전사는 물론, 대량의 오디오 데이터를 한꺼번에 처리하는 배치 오디오 처리 기능까지 제공하며 의료 현장의 실무 요구사항을 정밀하게 구현했다.
데이터의 정확도는 후속 AI 작업의 신뢰도로 직결된다. 최근 업계가 주목하는 에이전틱 시대(Agentic Era, 자율적 AI 에이전트가 임상 의사결정이나 전자의무기록 내비게이션을 보조하는 시대)에서 음성 인식 결과물은 단순한 텍스트 기록물이 아니라 AI 시스템이 추론하기 위한 기초 데이터 층이 된다. 만약 범용 모델이 하이퍼갑상선증(hyperthyroidism)을 하이포갑상선증(hypothyroidism)으로 잘못 인식하거나 치명적인 약물 용량을 오기입할 경우, 이를 기반으로 작동하는 모든 하위 AI 에이전트는 오염된 데이터를 처리하게 된다. 반면 코르티의 모델은 정교하고 구조화된 임상 데이터를 생성함으로써 이러한 연쇄적 오류 가능성을 차단하고 의료진이 실제로 신뢰하고 사용할 수 있는 정밀한 텍스트 기반을 제공한다.
범용 모델과 레거시 시스템 사이의 54% 성능 격차
개발팀이 공개한 벤치마크 수치는 여기서 갈린다. 포맷팅된 임상 엔티티(용량, 측정치, 날짜 등)의 재현율(Recall, 모델이 실제 정답을 얼마나 찾아냈는지 나타내는 지표)에서 심포니(Symphony, 코티의 임상급 음성 인식 모델)는 98.3%를 기록했다. 반면 가장 성능이 좋은 범용 모델의 재현율은 44.3%에 그쳤다. 수치상으로 54%p라는 극심한 격차가 발생한 지점이다. 이는 단순한 단어 인식을 넘어 의료 현장에서 필수적인 정밀 데이터 추출 능력에서 범용 모델의 한계가 명확히 드러난 결과다. 주목할 점은 이 격차가 단순한 기술적 오차를 넘어 실제 의료 현장에서는 치명적인 리스크로 직결된다는 사실이다. 투약 용량이나 날짜 같은 핵심 정보를 잘못 인식하거나 누락하는 것은 단순한 오타가 아니라 환자의 안전을 위협하고 의료 과실로 이어질 수 있는 법적 책임의 문제이기 때문이다.
비교 대상은 최신 범용 모델뿐만이 아니다. 오랜 기간 의료 받아쓰기 시장의 표준으로 자리 잡은 드래곤 메디컬 원(Dragon Medical One, 레거시 의료 음성 인식 시스템)과의 대결에서도 심포니는 우위를 점했다. 실제 영어 의료 받아쓰기 환경에서 심포니의 단어 오류율(WER, Word Error Rate)은 4.6%를 기록했다. 반면 드래곤 메디컬 원은 5.7%의 오류율을 보였다. 상대적으로 약 19%의 성능 개선이 이루어진 셈이다. 의료 용어 재현율 역시 심포니가 93.5%를 기록하며 드래곤 메디컬 원의 92.9%를 근소하게 앞섰다. 이는 특화 모델이 기존의 전문 시스템마저 정밀도 면에서 추월했음을 보여주는 구체적인 지표다.
그러나 수치보다 더 본질적인 차이는 시스템의 설계 목적과 지향점에 있다. 드래곤 메디컬 원과 같은 레거시 시스템은 의사가 의도적으로 마이크에 대고 말하는 받아쓰기 환경에 최적화되어 설계되었다. 반면 최근의 의료 AI 트렌드는 진료실 내의 대화를 자연스럽게 포착하는 앰비언트 AI(Ambient AI, 주변 환경의 소리를 자동으로 인식해 기록하는 인공지능) 인프라로 빠르게 이동하고 있다. 다자간 대화나 소음이 섞인 응급실 환경처럼 복잡한 상황에서는 의도적 받아쓰기 방식의 레거시 구조가 인프라로서 작동하기에 부적합하다는 한계가 있다. 심포니는 이러한 앰비언트 환경을 전제로 설계되었기에 단순한 텍스트 변환을 넘어 하위 AI 에이전트가 정확하게 추론할 수 있는 임상 팩트 층을 제공한다. 결국 레거시 시스템은 정적인 문서 생성 도구의 역할에 머물러 있는 반면, 심포니는 실시간 임상 의사결정을 지원하는 기반 데이터 레이어로서의 역할을 수행한다.
'에이전틱 시대'의 데이터 레이어: 단순 전사에서 임상 추론으로
과거의 의료 음성 인식은 단순히 메모장을 대체하는 정적 텍스트 생성에 그쳤다. 반면 최근 진입한 에이전틱 시대(Agentic Era, 자율 AI 에이전트가 임상 의사결정 및 EHR(전자 건강 기록) 내비게이션을 지원하는 단계)에서 전사 데이터는 최종 결과물이 아닌 하위 추론을 위한 기초 데이터 레이어 역할을 수행한다. 주목할 점은 음성 인식 단계의 작은 오류가 하위 에이전트의 판단에 치명적인 영향을 미친다는 사실이다. 예를 들어 갑상선 기능 항진증을 저하증으로 잘못 인식하거나 약물 용량을 오인할 경우, 이를 기반으로 작동하는 모든 후속 AI 에이전트는 오염된 데이터를 바탕으로 잘못된 임상 결정을 내리게 된다. 개발자 입장에서 이러한 리콜률 격차는 단순한 성능 차이가 아니라 의료적 책임과 직결되는 리스크의 문제다. 정확한 음성 데이터 확보는 단순한 편의성 개선이 아니라 AI 에이전트의 추론 신뢰도를 결정짓는 핵심 인프라가 된다.
이러한 데이터 정밀도는 다국어 환경에서 더 극명한 차이를 보인다. 스위스와 같이 여러 언어가 동시에 사용되는 까다로운 의료 환경은 다국어 임상 모델의 성능을 검증하는 가장 엄격한 시험대다. 여기서 Corti의 모델은 독일어 WER(단어 오류율) 2.4%를 기록했으며, 이는 차순위 모델의 13.0%와 비교해 압도적인 수치다. 프랑스어 역시 WER 3.9%를 달성해 차순위의 10.6%를 크게 앞섰다. 이러한 성능은 실제 현장에 적용되어 보이스포인트(Voicepoint, 스위스 헬스케어 기술사)의 제논(Xenon) 플랫폼에 탑재되었다. 범용 모델이 해결하지 못한 다국어 임상 용어의 정확도를 확보함으로써, 의료진이 신뢰할 수 있는 실시간 워크플로우 구축이 가능해진 셈이다. 언어적 장벽이 높은 환경일수록 데이터 레이어의 정확도가 전체 시스템의 가용성을 결정한다.
음성 인식의 정확도는 단일 기능의 우위를 넘어 전체 임상 AI 생태계의 신뢰도로 확장된다. Symphony for Medical Coding(심포니 포 메디컬 코딩, 의료 코딩 전문 시스템)은 범용 모델 대비 임상 정확도를 25% 이상 높이며 복잡한 의료 행정 워크플로우에서의 실효성을 입증했다. 또한 HealthBench Professional(헬스벤치 프로페셔널, 의료 전문 벤치마크) 평가에서 OpenAI 모델의 성능을 상회하는 결과를 냈다는 점에 주목해야 한다. 이는 범용 모델이 가진 수평적 확장성보다 특정 도메인에 최적화된 수직적 AI 모델이 규제 산업 내에서 더 높은 성능 한계를 돌파할 수 있음을 시사한다. 결국 의료 코딩, 임상 추론, 음성 인식으로 이어지는 세 가지 지표의 결합은 범용 모델이 도달하지 못한 전문 영역의 임계점을 보여준다. 데이터 레이어의 정밀함이 곧 임상 추론의 정확도로 직결되는 구조다.




