네이처지 발표를 통해 입증한 21명 의사 이상의 질병 관리 성능

ChatGPT나 Gemini 같은 AI가 간단한 질문에는 답하지만, 개인의 병력을 모두 기억하고 장기적으로 건강 상태를 관리해 주는 경험은 아직 없다. 구글은 최근 학술지 네이처(Nature)를 통해 일회성 진단을 넘어 장기 질병 관리 영역으로 확장한 AMIE(Articulate Medical Intelligence Explorer, 의료 추론 및 대화 AI 시스템)의 연구 결과를 발표했다.

연구팀은 환자 연기자를 활용한 블라인드 테스트를 진행해 AMIE와 1차 진료 의사 21명의 성능을 비교했다. 이 테스트는 증상 추적과 가이드라인 분석, 약물 조정 등 장기적인 질병 관리 능력을 검증하는 구조로 설계했다.

AMIE는 전체적인 관리 추론 능력에서 임상 의사와 동등한 수준을 기록했다. 특히 계획 정밀도(plan preciseness, 관리 계획의 정확성)와 가이드라인 준수(guideline alignment, 표준 의료 지침 일치도) 점수는 의사보다 높게 나타났다.

이로써 AI가 단순 진단을 넘어 장기 관리 영역으로 확장됨에 따라, 의사가 환자와 대면하는 시간을 확보하는 실무 보조 도구로 활용될 수 있음을 보여주었다.

제미나이 롱컨텍스트 기반의 이원화 에이전트 구조

의료진이 수백 페이지의 최신 지침을 검토하고 처방을 조정하는 시간은 곧 의료 자원의 비용이다. 구글은 제미나이(Gemini) 모델의 롱컨텍스트(Long-context, 매우 긴 입력 데이터를 한 번에 처리하는 기능) 역량을 활용해 이 과정을 효율화했다. 실시간 환자 대응을 담당하는 공감형 대화 에이전트(Empathetic dialogue agent)와 심층 분석을 수행하는 심층 사고 관리 추론 에이전트(Deep-thinking management reasoning agent)로 구조를 분리했다.

추론 에이전트는 약물 처방집(drug formularies)과 임상 가이드라인 등 수백 페이지의 권위 있는 임상 지식을 교차 참조한다. 대화 에이전트가 환자와 소통하는 동안 추론 에이전트가 배경 지식을 분석해 관리 계획을 세우는 방식이다. 방대한 데이터를 한 번에 처리하는 능력을 통해 개별 환자의 병력과 최신 의학 지침을 동시에 반영한다.

구글은 AMIE를 실제 임상 환경에 적용하는 방안을 탐색하고 있으며, 전국 단위의 가상 케어 AI 평가 연구에도 착수했다. AI가 지식 탐색의 물리적 시간을 줄여 의사가 환자와 대면하는 시간을 늘리는 보조 도구로 작동하는지 확인하는 단계다.

결국 의료 AI의 실효성은 단순한 정답 제시 능력이 아니라, 의사가 환자와 대면하는 시간을 얼마나 확보하느냐는 실무적 보조 능력에서 판가름 난다.