연구원의 '감'까지 측정한다, OpenAI의 생물학 벤치마크 GeneBench-Pro

GeneBench-Pro, 계산 생물학의 '연구적 감각' 측정

ChatGPT 같은 AI는 정해진 문법에 따라 코드를 짜는 일에는 능숙하다. 하지만 실제 연구 현장의 데이터는 정제되지 않은 노이즈가 가득하며, 이를 보고 생물학적 의미를 찾아내거나 분석 방향을 결정하는 것은 단순한 지식 회상과는 다른 영역이다. 전문 연구자가 데이터의 패턴을 보고 이것이 실제 생물학적 현상인지 아니면 단순한 오류인지 판단하는 직관이 필요한 이유다. OpenAI는 이러한 계산 생물학의 고차원적 판단력을 측정하기 위해 129개 문항으로 구성된 벤치마크 GeneBench-Pro를 출시했다.

GeneBench-Pro는 단순한 정답 맞히기가 아니라 연구적 감각(Research Taste)이라는 개념을 측정하는 데 집중한다. 여기서 연구적 감각이란 데이터가 실제로 지원할 수 있는 질문을 선정하고, 초기 진단 결과에 따라 모델을 수정하거나 분석 계획 자체를 변경하는 일련의 판단 체인을 의미한다. 모델은 실제 연구 환경처럼 지저분한 데이터셋과 간략한 실험 맥락, 그리고 하위 결정과 연결된 추정 대상(Estimand, 분석을 통해 얻고자 하는 목표 수치)을 제공받는다. 정답을 내기 위해 AI 에이전트는 데이터를 탐색하고 적절한 분석 경로를 선택하며, 실험과 수정을 반복하는 반복적 프로세스를 거쳐야 한다. 이는 AI가 단순히 매뉴얼을 따르는 것이 아니라 데이터의 상태에 따라 스스로 전략을 수정하는 능력을 확인하는 과정이다.

최근 유전체 시퀀싱(Genome Sequencing, DNA 염기서열 분석) 같은 데이터 생성 비용이 급격히 낮아지면서, 연구의 병목 지점은 표본 수집이 아니라 수집된 데이터를 처리하는 하위 계산 및 분석 단계로 이동했다는 주장이 제기된다. GeneBench-Pro는 바로 이 지점의 능력을 검증하기 위해 설계되었다. 전체 129개 문항은 계산 생물학의 다양한 세부 분야를 포괄하며 전문적인 분석 능력을 요구한다. 임상 및 약물유전체학(PGx, 유전적 차이에 따른 약물 반응 연구)과 진단 분야가 26개로 가장 많은 비중을 차지하며, 집단 유전학 21개, 통계 유전학 17개, 정량 유전학 17개, 조절 오믹스(Regulatory Omics, 유전자 발현 조절 기전 연구) 17개 순으로 구성되어 있다.

나머지 문항은 기능 유전학 9개, 미생물 유전학 3개, 법의학 유전학 2개로 이루어져 있다. 각 문제는 독립적인 과학 분석 과제로 설계되어 모델이 단순한 워크플로우 수행 능력을 넘어 시스템 레벨의 추론 능력을 갖췄는지 평가한다. 데이터의 모호함을 해결하고 분석 경로를 스스로 수정하는 능력은 AI가 단순한 보조 도구를 넘어 독립적인 연구 수행 능력을 갖추기 위한 핵심 지표가 된다. GeneBench-Pro는 모델이 정해진 경로를 따라가는지 아니면 데이터의 특성에 맞춰 유연하게 판단하는지를 가늠하는 기준을 제시하며, 이는 AI 에이전트의 실질적인 연구 역량을 측정하는 척도가 된다.

기술이 실제로 작동하는 방식

신입 연구원이 매뉴얼대로 분석을 수행했지만 결과가 나오지 않을 때, 시니어 연구원은 데이터의 노이즈를 파악해 분석 경로를 즉시 수정한다. GeneBench-Pro는 이러한 판단력을 측정하기 위해 합성 데이터(인위적으로 생성한 데이터) 방식을 도입했다. 기존 벤치마크가 사용하는 과거의 실제 데이터는 분석가의 주관적인 기준점에 따라 정답이 달라지는 임의성이 크다. 이를 해결하기 위해 연구진은 데이터의 인과 구조(원인과 결과의 관계)를 직접 설계하고 생성 과정을 시뮬레이션했다. 정답 경로가 결정론적으로 정해지므로 모델이 운 좋게 정답을 맞히거나 작성자의 개인적 선호도에 맞춘 답을 내놓는 정보 유출 가능성을 차단했다. 상세 트레이스 분석(실행 경로 추적)을 통해 의도하지 않은 지름길로 정답에 도달하는 경로를 점검하고, 어블레이션 연구(특정 요소를 제거해 성능 변화를 확인하는 실험)로 틀린 분석 경로를 선택했을 때 반드시 오답이 나오도록 튜닝했다.

설계된 문항의 현실성을 확보하기 위해 외부 전문가 검증 단계를 거쳤다. 전체 129개 문항 중 82개 문항을 대학원생, 박사후 연구원, 산업계 과학자, 교수에게 전달해 검토받았다. 검토자들은 각 문제의 상황이 실제 연구 환경과 얼마나 유사한지, 정답을 명확히 식별할 수 있는지, 사용된 방법론과 추정치가 적절한지를 평가했다. 이 과정에서 수집된 피드백을 바탕으로 문항의 완성도를 높였다. 단순한 수치 계산이 아니라 실제 과학적 추론 과정이 필요한지 확인하는 절차를 통해 벤치마크의 변별력을 높였다.

모델이 실제 분석 환경과 유사한 조건에서 작업하도록 격리된 워크스페이스를 제공한다. 여기에는 Python과 과학 계산 라이브러리, 그리고 PLINK 2.0이라는 유전체 데이터 분석 도구가 포함된 표준 바이오인포매틱스 스택이 설치되어 있다. 모델은 짧은 프롬프트와 데이터 파일만을 제공받은 상태에서 스스로 분석 도구를 선택하고 실행해야 한다. 도메인 전용 도구 없이도 문제를 풀 수 있도록 설계되었으나, 실제 연구 환경에서 쓰이는 도구들을 배치해 시스템 레벨의 도구 활용 능력을 함께 측정한다.

평가 단계에서는 모델의 답변 형식을 엄격하게 제한해 채점의 객관성을 확보했다. 최종 답변은 마크다운 형식을 사용하지 않고 단일 JSON 객체(데이터를 저장하는 표준 형식)로만 반환해야 한다. JSON 앞뒤에 설명글을 붙이거나 마크다운 코드 블록으로 감싸는 행위는 모두 금지된다. 이는 모델의 답변 길이나 수식어구에 따라 점수가 달라지는 언어적 효과를 제거하기 위한 조치다. 오직 정해진 키와 값만을 포함한 결과물을 통해 정답 여부를 결정론적으로 판정한다.

GPT-5 대비 6배 이상의 추론 성능 향상

AI에게 복잡한 데이터 분석 코드를 짜달라고 하면 문법적으로는 완벽한 결과물을 내놓지만, 정작 데이터 속의 노이즈와 유의미한 신호를 구분하는 전문적인 판단력은 부족해 결국 사람이 일일이 다시 검토해야 하는 번거로움이 있다. OpenAI는 이러한 전문적 판단 능력을 검증하기 위해 GPT-5.6 Sol 모델을 테스트했다. 이 모델은 최고 추론 레벨에서 28.7%의 통과율을 기록했으며, Pro 모드(추론 성능을 극대화하는 설정)를 활성화했을 때는 31.5%까지 성능이 올라갔다. 이는 초기 GeneBench 구축 당시 최상위 모델이었던 GPT-5가 5% 미만의 점수를 기록하며 대부분의 문항에서 오답을 냈던 것과 비교하면 매우 큰 폭의 상승이다. 단순한 지식 검색을 넘어 연구 수준의 고차원적 판단이 필요한 영역에서 모델의 통과율이 수치상으로 6배 이상 높아진 셈이다. 이는 모델이 단순히 더 많은 데이터를 학습한 결과가 아니라, 복잡한 문제를 푸는 방식 자체가 진화했음을 보여주는 수치다.

이러한 성능 도약의 중심에는 테스트 시간 연산량(Test-time compute, 모델이 최종 답변을 출력하기 전 추론 단계에서 사용하는 계산 자원)의 확장이 있다. 모델이 정답을 내기 위해 더 많은 경로를 탐색하고 스스로 검토하는 시간을 늘리자 시스템 레벨의 과학적 추론 능력이 빠르게 상승했다. 구체적인 효율성을 살펴보면 최고 추론 레벨의 GPT-5.6 Sol은 GPT-5.2 모델보다 토큰을 약 2/3만 사용하면서도 정답 수는 약 6배 더 많이 확보했다. 토큰은 AI가 텍스트를 처리하는 최소 단위이며, 이를 적게 쓰면서 정답률을 높였다는 것은 불필요한 반복이나 방황 없이 정답으로 가는 최단 경로를 찾아내는 능력이 개선되었음을 의미한다. 특히 이전 세대 모델들이 정답에 도달하기 위해 과도한 연산을 소모하며 헤맸던 것과 달리, 최신 모델은 연산의 밀도를 높여 정답률을 끌어올렸다. 연산 효율의 개선이 곧바로 과학적 난제 해결 능력의 수치적 상승으로 연결된 사례다.

하지만 모델의 기본 체급이 높더라도 추론 레벨 설정이 낮으면 전문적인 판단은 불가능했다. 실제로 GPT-5.6 Sol은 최저 추론 레벨에서 테스트했을 때 통과율이 한 자릿수에 머무는 결과를 보였다. 이는 모델이 보유한 지식의 양보다, 그 지식을 어떻게 조합해 분석 경로를 수정하고 오류를 잡느냐는 추론 과정의 깊이가 훨씬 중요하다는 사실을 입증한다. AI 에이전트가 단순한 분석 도구의 실행을 넘어 데이터의 특성에 따라 분석 계획을 스스로 변경하는 시스템 레벨의 추론 능력을 갖추었는지 판단하려면, 반드시 테스트 시간의 연산량 투입 정도를 함께 살펴야 한다. 결국 높은 추론 레벨에서의 정답률은 AI가 연구자의 연구적 감각을 어느 정도까지 모사할 수 있는지를 가늠하는 실질적인 척도가 된다.

데이터 수집에서 '분석 병목'으로의 전환

코딩을 잘하는 AI가 정작 연구실의 데이터 앞에서는 무용지물이 되는 이유는 단순한 문법 지식이 아니라 데이터의 노이즈와 의미를 구분하는 전문적인 판단력이 없기 때문이다. 생물학 연구에서 유전체 시퀀싱(Genome sequencing, DNA 염기서열을 읽어내는 기술) 같은 데이터 생성 비용은 이미 급격하게 하락하여 누구나 방대한 양의 로우 데이터를 얻을 수 있는 시대가 되었다. 이제 연구의 실제 제약 요소는 표본 수집이라는 물리적 단계가 아니라, 수집된 데이터를 어떻게 처리하고 해석할 것인가 하는 하위 계산 및 분석(Downstream computation and analysis) 단계로 완전히 옮겨갔다. 데이터는 넘쳐나지만 이를 통해 유의미한 생물학적 결론을 도출하는 분석 능력이 전체 연구의 성패와 속도를 결정하는 핵심 병목 지점이 된 상황이다.

이러한 분석 병목을 해결하기 위해 AI에게 요구되는 핵심 역량은 연구적 감각(Research Taste)이다. 이는 단순히 정해진 매뉴얼이나 워크플로우를 기계적으로 실행하는 능력이 아니다. 데이터가 실제로 어떤 질문을 지원할 수 있는지 판단하고, 초기 진단 결과에 따라 분석 모델이나 추정치를 수정하며, 필요할 때 분석 계획 전체를 변경하는 고차원적인 판단 체인을 의미한다. GeneBench-Pro는 바로 이 지점을 정밀하게 측정하기 위해 설계되었다. AI 에이전트가 단순한 코드 생성 도구를 넘어, 데이터의 특성과 노이즈에 맞춰 분석 경로를 스스로 수정하고 최적화하는 시스템 레벨의 추론 능력을 갖췄는지 가늠하는 객관적 기준을 제시한다.

OpenAI는 이 벤치마크의 투명성을 높이고 업계의 공통 기준으로 만들기 위해 외부 공개 범위를 구체적으로 설정했다. 우선 Hugging Face(허깅페이스, 오픈소스 AI 모델 및 데이터셋 공유 플랫폼)에 10개의 대표 문항을 공개하고, 사용자가 이를 직접 탐색할 수 있는 인터랙티브 웹 인터페이스를 함께 제공한다. 또한 내부 평가의 한계를 극복하고 독립적인 제3자 검증을 수행하기 위해 Artificial Analysis(아티피셜 분석, AI 모델의 성능과 효율성을 측정하는 전문 기관)에 50개 문항으로 구성된 서브셋을 제공할 예정이다. 이는 모델 개발사가 주장하는 성능을 넘어, 외부 기관이 실제 연구 환경과 유사한 조건에서 모델의 판단력을 교차 검증하게 함으로써 벤치마크의 실효성을 확보하려는 전략이다.

생물학 AI의 실질적인 경쟁력은 이제 학습 데이터의 양이 아니라, 주어진 데이터에서 정답으로 가는 최적의 분석 경로를 얼마나 정확하게 설계하고 실행하느냐로 이동한다. 숙련된 연구자가 데이터를 훑어본 뒤 분석 방향을 즉각적으로 수정하는 것처럼, AI 역시 분석 과정에서 발생하는 수치적 이상치나 예외 상황을 인지하고 전략을 수정할 수 있어야 한다. 데이터 수집 비용의 하락으로 인해 부상한 하위 계산 및 분석 단계의 병목을 뚫어내는 추론 능력은, 향후 AI 에이전트가 단순 보조 도구를 넘어 실제 과학적 발견을 주도하는 연구 주체로 성장할 수 있는지를 결정하는 결정적인 판단 지표가 된다.

AI가 코딩 문법을 익히는 단계를 넘어 데이터의 노이즈와 유의미한 신호를 구분하는 전문적 판단력을 갖췄는지가 핵심이다. 정답 경로의 임의성을 제거한 인과 구조 시뮬레이션 기반의 합성 데이터는 AI가 단순한 워크플로우 수행자가 아닌 연구 주체로 작동하는지를 검증한다.

GeneBench-Pro의 129개 문항은 AI 에이전트가 데이터 특성에 맞춰 분석 경로를 스스로 수정하는 시스템 레벨의 추론 능력을 가늠하는 기준이 된다. 이제 모델의 성능을 단순한 정답률이 아니라 연구적 감각을 모사하는 유연한 경로 수정 능력으로 판단해야 한다.