미해결 희귀질환 18건 진단 성공, OpenAI o3의 추론 기반 재분석 성과

OpenAI o3, 미해결 희귀질환 사례 376건 중 18건 진단

유전체 시퀀싱 같은 정밀 검사를 받고도 원인을 찾지 못해 진단 방랑을 겪는 희귀질환 환자가 많다. 정밀 검사와 전문가 검토를 마친 뒤에도 약 절반의 환자가 진단을 받지 못하는데, 이는 수천에서 수백만 개의 유전 변이와 파편화된 임상 기록, 빠르게 변하는 과학 문헌을 일일이 대조해야 하기 때문이다. OpenAI는 보스턴 어린이 병원 Manton 센터, 하버드 대학교와 협력해 이 문제를 다뤘다. 2026년 6월 18일 NEJM AI에 발표된 연구에 따르면, OpenAI o3 Deep Research 모델이 기존에 해결되지 않은 미해결 사례 376건을 재분석하여 18건의 추가 진단을 성공시켰다. 이는 기존 전문가 분석 이후 추가로 확보한 4.8%의 진단율이다.

분석 대상이 된 376건은 이미 여러 상용 파이프라인과 다학제 팀의 검토를 거쳤으나 결론을 내지 못한 사례들이다. 희귀질환 재분석은 새로운 유전자와 질병의 관계가 밝혀지거나 기존 변이가 재분류됨에 따라 과거에 풀지 못한 사례를 다시 해석하는 과정이다. o3 Deep Research는 전문가가 놓쳤을 가능성이 있는 최신 문헌과 유전 변이 사이의 연결 고리를 찾아내 진단 단서를 제시했다. 모델이 단독으로 진단을 내린 것이 아니라, 전문가가 검토할 수 있는 근거 기반의 가설을 생성하는 연구 워크플로우의 일부로 작동했다.

HPO 용어와 ACMG/AMP 프레임워크 기반 추론 구조

o3 Deep Research 모델은 결론을 내기 전 논리적 근거를 먼저 구성하는 '설명 우선 추론 레이어'를 적용했다. 모델은 환자의 증상을 표준 용어로 기술한 HPO(Human Phenotype Ontology) 용어와 임상 노트, 연령 및 성별 메타데이터가 포함된 비식별 데이터 패킷을 입력받는다. 여기에 변이의 희귀도, 단백질에 미치는 예측 영향, ClinVar 분류, 가족 구성원의 신호 품질 정보가 담긴 필터링된 변이 테이블이 추가된다. 분석에는 대부분 환아와 생물학적 부모 양측의 유전 데이터가 모두 포함된다.

작동 방식은 임상 특징, 유전 패턴, 변이 근거, 최신 과학 문헌을 연결해 가장 가능성 높은 분자 생물학적 설명과 도출 과정을 함께 제시하는 구조다. 검토자는 AI가 제시한 논리 전개 과정을 직접 추적하며 가설의 타당성을 검증하고, 필요한 경우 추가 질문을 던지는 방식으로 상호작용한다. 이를 통해 전문가는 방대한 데이터 속에서 집중 검토 대상을 빠르게 선정할 수 있다.

도출된 가설은 실제 임상 실험실의 표준 지침인 ACMG/AMP(미국 유전학 및 병리학회) 프레임워크를 통해 검증한다. 최소 2인 이상의 전문가가 각 후보를 검토하며, 의견이 갈릴 경우 합의를 통해 최종 결정을 내린다. 모델의 출력값은 그 자체로 진단으로 취급되지 않으며, 최종 확정은 CLIA(임상검사실 개선 수정법) 인증 실험실에서 해당 변이가 병원성 또는 병원성 가능성이 높다고 확인한 뒤 임상 팀이 가족에게 결과를 전달하며 종료된다.

기진단 사례 48/51 적중률과 신뢰도 점수 분석

연구팀은 미해결 사례에 모델을 투입하기 전, 이미 답을 알고 있는 기진단 사례를 통해 추론의 정확도를 검증했다. 일반 희귀질환 사례 51건을 대상으로 두 번의 반복 실행을 수행한 결과, 48건에서 유전자와 변이를 정확히 회복했다. 이는 모델이 복잡한 의료 데이터 속에서 기존 정답을 일관되게 찾아낼 수 있음을 보여준다. 이러한 검증 과정은 프롬프트를 정교하게 개발하고 전문가 검토가 필수적인 지점을 파악하는 토대가 되었다.

질환의 특성과 데이터 형식에 따라 적중률은 차이를 보였다. 신경근육 질환 검증 세트 57건 중 45건에서 진단 적중을 기록했다. 특히 구조적 변이를 찾기 유리한 롱리드 게놈(Long-read genome) 세트 15건에서는 모든 사례의 유전자를 정확히 명시했으며, 이 중 12건은 질병 원인이 되는 대립유전자(Allele)까지 모두 식별해냈다.

모델이 출력한 신뢰도 점수는 실제 정답 여부와 상관관계를 보였다. 정답을 맞힌 사례의 평균 최소 점수는 85.6점이었으나, 오답이나 미확인 사례는 42.1점으로 수치상 격차가 뚜렷했다. 이 점수는 진단을 확정하는 근거가 아니라, 전문가가 수많은 후보군 중 어떤 사례를 먼저 집중적으로 검토할지 결정하는 필터링 가이드로 활용되어 분석 효율을 높였다.

22q11.2 결실 발견 사례로 본 AI 재분석의 실무적 효용

실제 사례에서 o3 Deep Research는 조기 정신증 환자의 22번 염색체 저품질 호출(low-quality calls) 구간을 심장, 면역, 신경 발달 및 정신과적 특징과 연결했다. 이를 통해 디조지 증후군과 관련된 22q11.2 결실 가설을 도출했으며, 후속 게놈 시퀀싱으로 해당 변이를 최종 확인했다. 입력 데이터에 명시되지 않은 구조적 변이를 임상 징후와의 상관관계 분석으로 추론해낸 결과다.

복합적인 유전 원인을 식별한 사례도 확인됐다. LAMA2와 FOXP1 유전자 변이가 동시에 작용해 근육 및 신경 발달 특징을 모두 설명하는 이중 유전자(digenic) 사례를 발견했으며, 백반증 환자의 S1PR1 유전자 내에서 11개 아미노산이 결실된 새로운 기전적 설명도 제시했다. 이는 AI가 유전자 변이 간의 상호작용을 가설화하여 전문가의 분석 범위를 확장했음을 보여준다.

전체 18건의 진단 성공 사례 중 7건은 이미 외부 공공 데이터베이스에 병원성으로 등록되어 있었으나, 내부 기록에는 통합되지 않았던 정보를 AI가 다시 찾아낸 결과였다. 서로 다른 식별자와 형식을 사용하는 데이터베이스 간의 정보 통합 한계를 AI의 검색과 연결 능력이 해결한 것이다. 여기서 AI는 진단을 직접 내리는 주체가 아니라, 전문가가 검토할 근거 기반 가설을 생성하는 리드 제너레이터(lead generator)로 작동했다.

정밀 검사 이후에도 답을 찾지 못한 진단 방랑의 끝은 결국 파편화된 데이터와 최신 문헌을 연결하는 집요한 재분석에 있다. o3 Deep Research 모델은 단순한 유전자 추천을 넘어 임상 특징과 문헌 근거를 연결하는 추론 레이어를 통해 전문가가 집중해야 할 지점을 구체적으로 좁혔다.

결국 AI의 역할은 진단을 내리는 것이 아니라, 방대한 정보 속에서 인간 전문가가 개입해야 할 최적의 시점과 대상을 선정하는 필터가 되는 것이다. 의료진은 AI가 산출한 신뢰도 점수와 추론 근거를 바탕으로 재분석의 우선순위를 결정함으로써 진단 효율을 극대화할 수 있다.