온타리오주 감사원이 이번 주 의료용 AI Scribe(의사-환자 대화를 기록해 주는 AI 도구) 20개 업체에 대한 감사 결과를 발표했다. 시뮬레이션 녹음 파일을 통해 정확도를 검증한 결과, 상당수 시스템이 환자 기록에 심각한 오류를 포함한 것으로 관찰된다. 이 결과는 공공 서비스의 AI 활용 현황을 다룬 대규모 보고서의 일부로 공개되었다.

AI Scribe 20개 시스템의 정확도 측정 결과

감사 대상 20개 시스템 중 12개, 즉 60%가 환자 노트에 처방 약물 정보를 잘못 기입했다. 9개 시스템은 녹음 내용에 없는 치료 계획을 제안하거나 환자가 불안해한다는 식의 허구 정보를 생성했다. 구체적으로는 녹음 과정에서 전혀 언급되지 않았음에도 종양이 발견되지 않았다는 기록을 남기는 등 치명적인 오정보가 포함된 사례가 발견되었다.

정신 건강 관련 핵심 세부 사항을 누락한 사례는 17개 시스템에서 확인되었으며, 6개 시스템은 관련 내용을 완전히 혹은 부분적으로 놓쳤다. 이번 평가는 의료 전문가들이 실제 의사-환자 대화 녹음본과 AI가 생성한 노트를 대조하는 방식으로 진행되었다. 현재 온타리오주 보건부의 AI Scribe 프로그램에는 5,000명 이상의 의사가 참여하고 있다.

정확도 4%와 지역성 30%의 평가 가중치

평가 점수를 산정하는 기준점이 의료적 정확도보다 행정적 요건에 치우쳐 있다. 플랫폼 평가 점수의 30%는 단순히 온타리오주 내에 사업장이 있는지 여부로 결정되었다. 반면 의료 기록의 정확도가 전체 점수에서 차지하는 비중은 4%에 불과했다.

편향 제어(AI가 특정 집단에 편향된 결과를 내지 않도록 조절하는 기술)는 2%, 위협 및 개인정보 보호 평가는 2%, SOC 2 Type 2(서비스 조직의 보안 및 가용성을 인증하는 표준) 준수 여부는 4%의 가점만 부여되었다. 정확도와 보안성이라는 핵심 가치가 전체 평가의 극히 일부만 반영된 구조다. 이러한 가중치 설정은 기술적 완성도가 낮은 벤더가 선정될 가능성을 높이며, 결과적으로 민감한 개인 건강 정보 보호에 취약한 도구가 도입되는 리스크를 초래한다.

개발자가 체감하는 가장 큰 시스템적 결함은 검증 루프의 부재다. OntarioMD(의사들의 기술 도입을 지원하는 단체)는 의사가 AI 노트를 수동으로 검토할 것을 권고했다. 하지만 감사 보고서는 승인된 어떤 AI Scribe 시스템에도 의사가 내용을 확인하고 승인했다는 강제 인증 기능(mandatory attestation feature)이 구현되어 있지 않음을 지적했다.

기존의 소비자용 AI 모델들이 의료 진단 사례에서 약 80%의 실패율을 보였다는 연구 결과가 있었으나, 이번 사례는 전문가용 도구에서도 유사한 성능 저하가 관찰되었다는 점에서 차이가 있다. 이는 AI 모델의 성능 자체보다, 해당 모델을 제품화하여 현장에 배치하는 과정에서의 검증 프로세스와 평가 지표 설계가 얼마나 중요한지를 보여준다.

의료 AI의 실무 도입 시 성능 지표를 잘못 설정하면 기술적 완성도가 낮은 도구가 현장에 배치되는 시스템적 리스크를 초래한다.