GPT-5.5 기반의 GPT-Rosalind 업데이트와 연구 프리뷰 공개

논문과 도표, 실험 기록, 그리고 수많은 연구 노트와 원시 데이터를 일일이 대조하며 FDA 승인을 위한 증거 패키지를 구성하는 작업은 바이오 연구자가 겪는 가장 고된 물리적 노동 중 하나다. 수백 편의 논문에서 데이터를 추출하고 이를 실제 실험 결과와 대조해 논리적 일관성을 증명하는 과정에서 막대한 시간이 소모된다. OpenAI는 이 병목을 해결하기 위해 GPT-5.5의 에이전트 코딩(agentic coding)과 도구 사용(tool-use) 능력을 생명과학 도메인 지식과 결합한 GPT-Rosalind 업데이트 버전을 공개했다. 이번 모델은 단순한 텍스트 생성을 넘어 약물 화학(medicinal chemistry)과 유전체학(genomics) 같은 핵심 도메인 지능을 강화해 엔터프라이즈 스케일의 연구 대응력을 확보했다.

생명과학 연구의 핵심은 분자, 유전자, 경로, 생체 시스템 등 서로 다른 스케일과 모달리티의 데이터를 유기적으로 합성하는 능력에 있다. 업데이트된 GPT-Rosalind는 이러한 다층적 데이터 합성 능력을 강화해 복잡한 약물 화학 쿼리나 정량 생물학 분석, 웻랩(wet lab)의 트러블슈팅 같은 고난도 연구 과제에서 성능 향상을 기록했다. 특히 약물 화학과 유전체학 분야에서 모델 지능을 대폭 강화해 분자 구조 분석이나 유전자 서열 해석의 정확도를 높였으며, AI가 스스로 코드를 작성하고 외부 도구를 호출하며 가설을 검증하는 워크플로우를 수행한다. 현재 이 모델은 전 세계 적격 조직을 대상으로 신뢰 기반 액세스(trusted-access) 구조를 통해 연구 프리뷰 형태로 제공되며, 엄격한 권한 관리를 통해 실제 연구 현장에서의 효용성을 검증하고 있다.

모델의 실질적인 연구 기여도를 측정하기 위해 외부 전문가가 직접 판정하는 벤치마크인 LifeSciBench가 도입되었다. 기존 벤치마크들이 모델 성능의 단일 컴포넌트나 개별 생물학 도메인을 고립시켜 평가했다면, LifeSciBench는 연구의 시작인 증거 추출부터 최종 소통까지의 전 과정을 다루는 엔드투엔드(end-to-end) 뷰를 채택했다. 구체적으로 증거 처리, 분석, 설계 및 최적화, 과학적 추론, 검증 및 운영, 번역 및 소통이라는 6개 핵심 워크플로우 영역을 통합 평가한다. 결과적으로 GPT-Rosalind는 단순한 정보 요약을 넘어 실험 설계의 통계적 오류나 생물학적 메커니즘의 한계를 짚어내는 AI 레드팀(Red Team)으로서의 활용 가능성을 입증했다.

LifeSciBench: 6개 워크플로우를 통합 평가하는 엔드투엔드 구조

바이오 연구자가 FDA 승인을 위해 준비하는 증거 패키지는 수많은 논문과 도표, 실험 기록을 일일이 대조하며 증거를 구성하는 고된 수작업의 연속이다. 이번 업데이트의 핵심은 GPT-5.5의 에이전트 코딩(agentic coding)과 도구 사용 능력을 생명과학 도메인 지식과 결합한 GPT-Rosalind의 업데이트 버전이 공개되었다는 사실이다. 단순한 텍스트 생성을 넘어 실제 연구자의 작업 흐름에 직접 개입하여 도구를 다루는 에이전트로서의 능력을 강화했다.

성능을 측정하는 잣대부터 완전히 달라졌다. 기존의 벤치마크들이 모델의 단일 컴포넌트나 개별 생물학 도메인을 고립시켜 평가하는 방식이었다면, 이번에 도입된 LifeSciBench는 연구의 시작부터 끝까지를 아우르는 엔드투엔드(end-to-end) 뷰를 채택했다. 외부 전문가들이 직접 판정하는 이 벤치마크는 단일 지식의 정답률이 아니라 실제 과학적 가치가 있는 전체 작업 흐름을 완수할 수 있는지를 측정하는 데 집중한다.

평가 영역은 생명과학 연구의 핵심인 6개 워크플로우로 세분화되어 설계되었다. 논문과 표, 실험 기록에서 증거를 추출하고 서로 대조하며 감사하는 증거 처리(evidence handling)와 이를 바탕으로 데이터를 해석하는 분석(analysis)이 첫 단계다. 이어지는 설계 및 최적화(design and optimization)와 과학적 추론(scientific reasoning) 단계에서는 가설을 세우고 최적의 실험 경로를 설정하는 능력을 평가한다. 마지막으로 실험의 실제 구현을 위한 검증 및 운영(validation and operations)과 연구 결과를 학술적 혹은 규제 기관의 언어로 전달하는 번역 및 소통(translation and communication)까지 연결되는 전 과정을 통합적으로 측정한다.

이러한 평가 체계의 변화는 AI의 역할을 단순한 정보 요약자에서 실험 설계의 통계적 오류나 생물학적 메커니즘의 한계를 짚어내는 AI 레드팀(Red Team)으로 확장시킨다. 연구자가 제출한 증거 패키지에서 통계적 결함이나 구조적 한계를 먼저 찾아내어 비판하는 능력을 검증하는 것이 LifeSciBench의 실질적인 목적이다. 전문적인 도구 사용 능력과 도메인 지식이 결합했을 때 비로소 단순 답변이 아닌 과학적 비판이 가능하다는 점을 벤치마크 구조로 구현하여 실질적인 연구 보조 도구로서의 가능성을 확인했다.

단일 컴포넌트 평가에서 '과학적 워크플로우' 전체 검증으로의 전환

6개 영역으로 구성된 연구 워크플로우 전체를 한 번에 검증하는 LifeSciBench(라이프사이벤치)가 이번 업데이트의 핵심 잣대다. 기존의 벤치마크들은 모델이 특정 생물학적 도메인의 지식을 얼마나 보유했는지, 혹은 단일 컴포넌트의 성능이 얼마나 뛰어난지를 고립시켜 평가하는 방식에 그쳤다. 특정 유전자의 기능을 정확히 답하거나 단백질 구조에 대한 개별 질문에 응답하는 식의 단편적 테스트가 주를 이뤘기에, 실제 연구 현장에서 벌어지는 복합적인 작업 수행 능력을 측정하기에는 한계가 있었다. 이번 업데이트는 이러한 개별 지식의 파편을 넘어 연구 프로세스 전체의 연결성을 검증하는 방향으로 전환했다.

구체적인 검증 범위는 증거 처리(evidence handling), 분석(analysis), 설계 및 최적화(design and optimization), 과학적 추론(scientific reasoning), 검증 및 운영(validation and operations), 그리고 번역 및 소통(translation and communication)까지 총 6개 영역을 포괄한다. 연구자가 수많은 논문과 도표, 실험 기록에서 증거를 추출하는 시작 단계부터 이를 분석해 실험을 설계하고, 최종적으로 규제 기관이나 동료 연구자와 소통하기 위한 문서로 번역하는 끝 단계까지의 전 과정을 엔드투엔드 뷰(end-to-end view)로 채택했다. 이는 AI가 각 단계에서 개별적으로 작동하는 것이 아니라, 앞 단계의 결과물을 다음 단계의 입력값으로 정확히 전달하며 논리를 쌓아가는 능력을 측정하기 위한 설계다.

LifeSciBench를 통해 측정된 결과, GPT-Rosalind는 산업계와 학계 전문가들이 직접 식별한 과학적으로 가치 있는 작업 전반에서 성능 우위를 달성했다. 전문가들이 정의한 가치 있는 작업이란 단순히 정답이 정해진 퀴즈를 푸는 것이 아니라, 실제 연구 현장에서 병목 현상을 일으키는 복잡한 워크플로우를 해결하는 능력을 의미한다. 모델의 성능을 단순한 텍스트 생성 품질이 아니라 전문가가 판정한 실제 연구 기여도와 연결해 검증함으로써, 생명과학 연구의 요구 사항과 현실에 맞게 발전 방향을 정렬했다. 연구의 시작부터 끝까지 이어지는 일련의 흐름을 AI가 얼마나 정교하게 수행할 수 있는지를 사실 기반으로 증명한 결과다.

FDA 승인 패키지의 허점을 짚어내는 정밀 비판 능력

수백 페이지의 논문과 도표를 일일이 대조하며 FDA 승인을 위한 증거 패키지를 구성하는 작업은 바이오 연구자에게 가장 고된 노동이다. 이번 업데이트의 핵심은 단순 요약을 넘어 이 패키지의 허점을 공격하는 레드팀 역할이다. GPT-Rosalind는 듀센 근이영양증(DMD) 유전자 치료제인 AAV9-microDys-X의 FDA Type B 미팅 패키지를 대상으로 정밀 비판을 수행했다. 모델은 현재의 증거 수준으로는 가속 승인을 받기 어렵다는 결론과 함께 구체적인 결함을 짚어냈다.

먼저 웨스턴 블롯(Western blot) 정량화 과정의 치명적 오류를 찾아냈다. 138 kDa의 마이크로-디스트로핀을 정상적인 풀-렝스(full-length) 표준품과 비교한 방식이 무효하다는 점을 지적했다. 또한 C-말단 다클론 항체가 138 kDa 구조물에는 해당 도메인이 없어 부적합하며, 환자의 리버턴트 섬유(revertant fibers)가 신호에 편향을 줄 수 있다는 점을 짚었다. 통계적 설계의 허점도 드러났다. 무작위 대조군이 아닌 외부 자연사 코호트를 사용한 점과 unpaired t-test의 불충분함을 꼬집었다. 특히 NSAA(북미 근이영양증 평가 척도) 수치가 +1.4 변화한 것은 해당 연령대의 테스트-재테스트 변동성 범위 내에 있어 유의미한 치료 효과로 보기 어렵다는 점을 명시했다.

생물학적 구조의 한계까지 깊게 분석했다. 138 kDa 구조물에서 스펙트린 반복 서열(spectrin repeats) R16/17이 결손된 점에 주목했다. 이 부위는 nNOS 결합 부위를 포함하고 있어, 결손 시 기능적 심파토라이시스(sympatholysis)와 운동 중 허혈 보호 능력이 저하될 가능성이 크다는 기전적 한계를 제시했다. 안전성 데이터에서도 구체적인 경고등을 켰다. 환자 12명 중 8명에게서 나타난 간수치 상승(Transaminitis)과 심근염 사례가 AAV9의 심장 친화성(cardiac tropism)과 맞물려 위험할 수 있음을 강조했다. 더불어 12주 차의 벡터 게놈 수치만으로는 장기적인 단백질 발현 지속성을 증명할 수 없다는 점을 덧붙였다.

이 결과는 AI가 도메인 지식을 인출하는 수준을 넘어 실험 설계의 통계적 오류와 생물학적 메커니즘의 맹점을 동시에 추론하여 데이터의 정합성을 필터링하는 검증 도구로 활용될 수 있음을 증명했다.

K-바이오 실무자에게 주는 의미: 'AI 레드팀'을 통한 승인 전략 최적화

+1.4라는 NSAA(북미 근육디스트로피 평가 척도) 수치 변화는 4~7세 아동 그룹의 테스트-리테스트 변동 범위 안에 있다. GPT-Rosalind는 이 수치를 근거로 한 임상 결과가 치료 효과가 아닌 단순 변동일 가능성을 즉각 지적한다. 이는 단순한 데이터 요약이 아니라 FDA 심사관의 관점에서 증거 패키지의 취약점을 찾아내는 사전 비판 프로세스다. 글로벌 임상을 준비하는 한국 제약사들이 가장 어려워하는 지점인 심사관의 회의적 시각을 AI가 미리 재현하는 레드팀 역할을 수행한다. 무작위 대조군이 없는 오픈 라벨 연구의 한계를 짚어내며, 연령별 층화 분석을 통해 발달 궤적과 치료 효과를 분리하라는 구체적인 설계 변경안을 제시한다.

MANEX1A 항체가 내인성 디스트로핀과 트랜스진을 명확히 구분하지 못한다는 점을 짚어내는 방식도 구체적이다. 모델은 138 kDa 마이크로-디스트로핀 표준품을 사용하거나 표적 질량 분석법 같은 직교 방법(orthogonal method)을 도입하라고 대안을 제시한다. 특히 환자에게 나타나는 리버턴트 파이버(revertant fibers)가 C-말단 에피토프를 유지해 신호를 왜곡할 수 있음을 경고하며, 트랜스진에만 존재하는 에피토프 항체를 사용해 다시 실험할 것을 권고한다. 외측광근 생검 시 발생하는 좌우 및 근육 내 공간적 변동성을 줄이기 위해 해부학적 지표를 표준화하고 근육 특이적 단백질로 정규화하라는 조언도 포함된다. 이런 Wet lab(습식 실험실) 트러블슈팅 성능 향상은 연구자가 실험을 반복하며 낭비하는 시간과 비용을 직접적으로 줄인다. 복잡한 유전체 데이터와 약물 화학 쿼리를 동시에 처리하는 통합 분석 환경은 서로 다른 도메인의 지식을 연결해 실험 설계의 오류를 빠르게 잡아낸다.

FDA Type B 미팅을 앞두고 구성하는 증거 패키지에서 대리 표지자(surrogate endpoint)의 타당성을 검증하는 과정이 핵심이다. 모델은 단백질 양이 38%라는 수치가 실제 임상적 기능의 38% 회복을 의미하지 않는다는 구조적 한계를 지적한다. 특히 138 kDa 구조체에서 nNOS 결합 부위가 삭제되어 운동 중 허혈 보호 능력이 떨어지는 기전적 한계가 존재함을 짚어낸다. AAV9 벡터 게놈이 12주 뒤에도 유지되는지가 단백질 발현의 지속성을 보장하지 않는다는 점까지 경고하며 추가적인 면역 모니터링과 심장 안전성 특성 분석을 요구한다. 이러한 정밀 비판은 한국 기업이 해외 승인 과정에서 겪는 시행착오를 줄이고 승인 전략을 최적화하는 검증 도구로 작동한다.

논문과 도표, 실험 기록을 일일이 대조하며 FDA 승인 패키지를 구성하는 바이오 연구자의 고된 수작업은 이제 GPT-Rosalind의 영역으로 들어왔다. GPT-5.5의 에이전트 코딩 및 도구 사용 능력을 생명과학 도메인 지식과 결합하고, LifeSciBench를 통해 6개 워크플로우의 엔드투엔드 수행 능력을 사실 기반으로 검증했기 때문이다.

이제 AI의 가치는 단순한 정보 요약을 넘어 실험 설계의 통계적 오류나 생물학적 메커니즘의 한계를 짚어내는 레드팀으로서의 정밀함에서 결정된다. 연구 보조 도구의 기준이 정답 제시에서 비판적 검증으로 옮겨간다.