파편화된 연구 환경을 통합한 Claude Science의 등장

연구자가 PubMed에서 자료를 찾고, Jupyter나 R로 분석하며, 클러스터 터미널로 옮겨 계산을 수행하는 과정에서 발생하는 도구 간 전환 비용은 연구 효율을 떨어뜨리는 고질적인 문제다. 특히 각 도구마다 다른 스키마(데이터 구조)와 파일 포맷을 처리하기 위해 별도의 데이터 파이프라인을 구축해야 하는 번거로움이 크다. Anthropic은 이러한 파편화된 환경을 하나로 묶은 AI 워크벤치 Claude Science를 공개했다. 이 도구는 문헌 분석부터 다단계 연구 실행, 수치 및 도표 수정, 최종 원고 작성까지 연구의 전 과정을 단일 환경에서 지원한다.

Claude Science는 현재 Claude Pro, Max, Team, Enterprise 사용자들을 대상으로 베타 출시되었다. 연구자는 자신의 작업 방식에 맞춰 macOS나 Linux 로컬 환경에서 직접 실행하거나, SSH(원격 접속 프로토콜) 또는 HPC(고성능 컴퓨팅) 로그인 노드를 통해 원격 머신에 접속해 사용할 수 있다. 분산되어 있던 PubMed, Jupyter, R, 클러스터 터미널 등의 도구가 하나의 인터페이스로 통합되면서, 연구자는 더 이상 서로 다른 포맷의 도구들을 번갈아 사용하는 불편을 겪지 않아도 된다. 모든 출력물에는 생성 과정에 대한 감사 가능한 이력이 남으므로, 연구 결과의 검증과 재현이 용이하다.

멀티 에이전트 구조와 HPC 인프라 제어 방식

이 시스템은 60개 이상의 큐레이션된 스킬과 커넥터를 제어하는 조정 에이전트(Coordinating Agent), 사용자가 정의한 전문 에이전트, 그리고 인용구 및 계산 오류를 검토하는 리뷰어 에이전트로 구성된 멀티 에이전트 체계로 작동한다. 리뷰어 에이전트는 생성된 결과물에서 인용구의 정확성과 계산 오류를 실시간으로 검토하고 자가 수정하여 연구 데이터의 정밀도를 높인다.

NVIDIA BioNeMo Agent Toolkit 연동을 통해 Evo 2, Boltz-2, OpenFold3 같은 생명과학 전문 모델과 라이브러리를 직접 연결한다. 연구자는 별도의 API 연동 작업 없이 워크벤치 내에서 단백질 구조 예측이나 게놈 분석 모델을 즉시 호출해 사용할 수 있다. 도메인 특화 모델의 연산 능력을 에이전트 스킬로 통합함으로써 모델 교체나 확장 시 발생하는 엔지니어링 공수를 줄였다.

컴퓨팅 자원은 SSH 기반의 HPC 클러스터나 Modal 계정을 통해 할당한다. 분석 규모에 따라 GPU 1개부터 수백 개까지 온디맨드 방식으로 자원을 확장하며 작업을 제출하고 관리한다. AI가 실행 계획을 수립하고 자원 할당을 요청하면 연구자가 이를 승인해 클러스터에 작업을 제출하는 방식으로 운영되어, 터미널에서 직접 명령어를 입력하고 상태를 모니터링하던 부담을 제거했다.

모든 연산 프로세스는 연구소의 로컬 PC, 리눅스 서버, HPC 로그인 노드에서 직접 실행된다. 대규모 데이터셋이나 민감한 연구 정보는 외부로 유출하지 않고 내부 시스템에 유지하며, 각 분석 단계에서 필요한 컨텍스트만 Claude로 전송한다. 인프라 제어권을 연구소 내부에 둠으로써 보안 요구사항을 충족하는 구조다.

재현 가능한 결과물과 실무 적용 사례

이러한 기술적 기반은 실제 연구 현장에서 구체적인 성과로 나타나고 있다. 2년이 소요되던 전문 리뷰 작성 작업이 100페이지가 넘는 보고서 10건을 생성하는 수준으로 단축됐다. Claude Science는 3D 단백질 구조나 게놈 브라우저 트랙, 화학 구조 같은 과학적 아티팩트(Artifacts)를 네이티브로 렌더링한다. 연구자는 에이전트와 대화하며 수치나 도표의 세부 사항을 수정하고, 결과물 생성 시 사용된 코드와 실행 환경, 메시지 이력을 함께 저장해 동일한 입력을 통해 결과를 재현할 수 있다.

Manifold Bio는 조직 타겟팅 약물 설계를 위해 이 시스템을 실무에 적용했다. 특정 장기나 세포에만 작용하는 약물을 개발하기 위해 수백 개의 타겟에 대응하는 수백만 개의 후보 바인더(Binder)가 체내에서 어떻게 분포하는지 테스트했다. 이 과정에서 표면 발현, 트래픽, 안전성 평가를 수행하고 최적의 타겟 후보를 선정했다. 내부 보유 데이터와 과거 프로그램의 맥락을 결합해 데이터 수집부터 최종 판단까지 전 과정을 엔드투엔드(End-to-End)로 수행했다.

Allen Institute의 제롬 르코크(Jérôme Lecoq)는 20개의 커스텀 스킬을 갖춘 멀티 에이전트 템플릿을 구축했다. 하위 에이전트들이 수천 편의 논문에서 핵심 주장과 정량적 발견을 추출해 증거 데이터베이스에 저장하면, 이를 바탕으로 섹션별 리뷰를 작성한다. 특히 액터-크리틱 쌍(Actor-Critic pairs)을 도입해 인용구의 정확성과 계산 오류를 자가 수정함으로써 수작업으로 진행하던 문헌 분석과 도표 작성을 자동화 파이프라인으로 전환했다.

한국 바이오-AI 실무자를 위한 인프라 통합 시사점

Claude Science는 UniProt(단백질 정보), PDB(단백질 구조), Ensembl(유전체 브라우저), Reactome(생물학적 경로), ClinVar(유전 변이), ChEMBL(화학 분자), GEO(유전자 발현 데이터) 등 서로 다른 스키마와 쿼리 언어를 가진 전문 데이터 소스를 통합 쿼리하고 합성한다. 연구자는 개별 사이트를 탐색하거나 데이터 포맷을 수동으로 맞추는 대신 자연어로 질문하여 여러 소스에서 추출한 데이터를 한 번에 분석할 수 있다.

연구소가 자체 보유한 모델이나 데이터셋, 검증된 분석 파이프라인을 재사용 가능한 스킬이나 커넥터 형태로 연결하는 기능이 핵심이다. 이렇게 설정된 커스텀 스킬은 이후 세션에서도 자동으로 상속되어 연구소 고유의 분석 체계를 매번 다시 구축할 필요가 없다. 범용 모델의 답변에 의존하지 않고 내부의 검증된 도구와 독점 데이터를 결합함으로써 연구소 환경에 최적화된 전용 워크벤치를 구축하는 전략이 가능하다.

가설 검증 과정에서 발생하는 시행착오를 관리하기 위해 세션 포크(Fork) 기능을 지원한다. 포크는 현재까지의 대화 맥락과 메모리 상태를 유지한 채 새로운 분기점을 만들어 서로 다른 두 가지 접근 방식을 동시에 실험하는 기능이다. 기존 스레드를 유지하며 새로운 분석 경로를 시도할 수 있어 서로 다른 파라미터나 모델을 적용한 결과를 나란히 두고 비교 분석하기 용이하다.

연구의 병목은 데이터의 부재가 아니라 PubMed나 Jupyter 같은 서로 다른 포맷의 도구를 오가는 물리적 이동 시간에 있었다. Claude Science는 연구자를 단순한 데이터 운반자에서 고수준의 조율자로 전환한다. 인프라 제어권을 내부에 두고 데이터 로드 횟수를 최소화하는 체계는 단순한 편의를 넘어 연구 사이클의 물리적 시간을 단축하는 핵심 동력이 된다. 이제 자동화된 워크벤치 활용 여부가 논문 리뷰 작성과 같은 실무적 성과를 내는 속도를 결정한다.