의사의 'Grade III 파열' 진단을 뒤집은 Claude Code의 MRI 분석

발표에서 확인된 핵심 사실

MRI 촬영 후 받는 진단서는 대개 낯선 의학 용어로 가득해 환자를 당혹스럽게 만든다. 이러한 상황에서 한 사용자가 자신의 MRI 결과를 직접 분석하고 세컨드 오피니언을 얻기 위해 Claude Code(클로드 코드, Anthropic의 터미널 기반 코딩 에이전트)의 Opus 4.8 모델을 활용했다. 기술적 호기심에서 시작한 이 실험적 시도는 AI가 복잡한 의료 진단 데이터를 어떻게 처리하고 해석하는지 확인하는 작업이다. 사용자는 AI가 전문적인 의료 기록을 읽고 진단에 대한 의견을 제시할 수 있는지 검증하고자 했다.

정형외과 전문의는 해당 사용자의 상태를 subscapularis tendon(견갑하근 건)의 apical insertion(정점 부착부) 부위에서 발생한 Grade III 부분 파열로 진단했다. 특히 파열 너비가 50%를 초과했다는 구체적인 수치와 함께 partial-thickness tear(부분 두께 파열)라는 판정이 내려졌다. 전문의는 이 진단을 바탕으로 광범위한 치료 과정을 제안했으며, 사용자는 이에 동의하여 즉시 치료를 시작했다. 이는 MRI 영상 분석을 통해 도출된 임상적 근거 기반의 확정적 진단이었다.

사용자는 의료진이 내린 이 확정적 진단 결과에 대해 Opus 4.8 모델을 통해 또 다른 의견을 듣고자 했다. 단순히 AI와 채팅하는 수준을 넘어, MRI 결과라는 전문 데이터를 입력하고 그에 대한 분석적 견해를 도출하는 과정에 집중했다. 이는 전문 의료진의 임상적 판단과 최신 LLM(거대언어모델)의 데이터 분석 능력이 실제 의료 현장의 진단 결과와 어떻게 상호작용하는지 검증하는 실험적 접근이다.

사용자는 자신의 실제 의료 데이터를 통해 AI가 전문 영역의 진단서를 읽어내는 능력을 직접 확인했다. 이 과정은 AI가 단순한 정보 제공자를 넘어, 전문 분야의 데이터 분석 도구로서 작동할 수 있는지 확인하는 실무적 실험의 성격을 띤다.

기술이 실제로 작동하는 방식

전문 용어로 가득한 진단서를 받아도 정작 내 상태가 어떤지는 알 수 없는 답답함이 있다. 의사는 힘줄의 끝부분인 apical insertion에서 50% 이상의 두께가 손상된 Grade III 부분 파열로 진단했다. 하지만 Opus 4.8은 1차 분석 결과에서 힘줄이 전혀 손상되지 않은 온전한 상태(intact tendon)라고 보고했다. 임상 경험을 가진 전문의의 판독 결과와 AI의 1차 분석 데이터가 정반대로 엇갈리며 진단의 불확실성이 극명하게 드러난 지점이다.

분석의 정밀도를 높이기 위해 AI 중재자(Arbiter)가 참여하는 다중 에이전트 비교 분석 체계를 가동했다. 중재자는 인간이 작성한 보고서와 GPT 5.5 Pro가 수행한 논의 내용을 동시에 제공받아 두 결과의 정합성을 검토했다. 이 과정에서 중재자는 Reader A의 분석 의견이 더 타당하다는 결론을 내렸으며, 이에 대해 중간에서 높은 수준의 신뢰도(moderate-to-high confidence)를 부여했다.

최종 판결(verdict)은 apical insertion을 포함하여 부분 파열이나 완전 파열이 모두 발견되지 않았다는 것이었다. 대신 힘줄 부착 부위에 경미한 염증성 변화가 나타나는 insertional tendinosis 상태라고 정의했다. AI가 단일 모델의 판단에 그치지 않고 서로 다른 모델과 인간의 데이터를 교차 검증하여 도메인 특화 진단을 구체화했다. 단순한 텍스트 요약을 넘어 의료 데이터의 상충하는 지점을 찾아내고 이를 논리적으로 해결하는 분석 경로를 확보했다.

확인해야 할 핵심 지점

MRI 진단서에 적힌 낯선 전문 용어들은 환자에게 막연한 불안감을 준다. 작성자는 이 불안을 해소하기 위해 Claude Code(터미널 기반의 AI 코딩 에이전트) 환경에서 Opus 4.8 모델을 활용했다. 단순한 채팅 인터페이스를 벗어나 직접 필요한 패키지를 설치하고 코드를 실행할 수 있는 환경을 구축해 266MB 규모의 DICOM(의료 디지털 영상 및 통신 표준) 파일을 분석했다. 특히 확장자가 없는 수백 개의 파일이 섞인 복잡한 구조의 표준 내보내기 패키지를 AI가 직접 탐색하고 처리하며 도메인 특화 데이터를 다루는 구체적인 방식을 구현했다. 텍스트 요약을 넘어 코드 실행 능력이 결합되었을 때 도메인 데이터 분석 잠재력이 극대화된다.

분석 결과는 전문의의 진단과 정면으로 충돌했다. 의사는 Grade III 파열이라는 중증 진단을 내렸으나, AI는 해당 부위가 온전한 상태라고 분석했다. 이 상충하는 결과로 인해 기존의 치료 계획이 사실 관계에 비해 너무 성급하고 과도한 개입을 포함하고 있다는 의구심이 생겼다. 전문가의 권위와 AI의 데이터 분석 결과 사이에서 신뢰의 혼란을 겪으며 치료 방향을 정하지 못하는 결정 장애 상태에 빠졌다. 이는 AI의 분석력이 정교해질수록 사용자가 기존 전문가의 진단과 AI의 결과 사이에서 겪게 되는 심리적 괴리와 신뢰의 문제를 구체적으로 드러낸 사례다.

MRI 촬영 후 마주하는 난해한 진단서는 환자에게 늘 막연한 불안감을 준다. 단순한 채팅 인터페이스를 넘어 패키지 설치와 코드 실행이 가능한 Claude Code의 멀티 에이전트 구조는 DICOM 같은 도메인 특화 데이터를 분석하는 새로운 경로를 제시한다.

의사의 Grade III 파열 진단과 상반된 온전한 상태라는 결과를 도출한 이번 사례는 LLM이 코드 실행 환경을 갖췄을 때 도달하는 분석의 임계점을 확인시킨다. 결국 LLM의 실무적 가치는 텍스트 생성 능력이 아니라, 전문 데이터를 직접 처리하는 실행 환경의 확보 여부로 결정된다.

의사의 'Grade III 파열' 진단을 뒤집은 Claude Code의 MRI 분석

발표에서 확인된 핵심 사실

기술이 실제로 작동하는 방식

확인해야 할 핵심 지점

관련 기사