앤스로픽 클로드 페이블 5 출시, 생물학 질문엔 '모르쇠'?

Claude Fable 5를 출시하며 지금까지 광범위하게

에이전트 코딩 벤치마크에서 80.3점을 기록한 Claude Fable 5와 Claude Mythos 5는 기존 Claude Opus 4.8의 69.2%를 크게 상회하는 성능을 보여준다. 앤스로픽은 이번 모델이 비전 작업과 과학 연구 등 복잡한 과제에서 최첨단 성능을 발휘한다고 밝혔다. 특히 스크린샷만으로 웹 애플리케이션의 소스 코드를 재구성하거나 상세한 과학적 수치에서 정확한 값을 추출하는 등 시각적 처리 영역에서 새로운 기준을 제시했다.

스트라이프는 5천만 줄 규모의 루비 코드베이스 전체 마이그레이션을 페이블 5가 단 하루 만에 완료했다고 전했다. 이는 전체 팀이 수작업으로 두 달 이상 매달려야 했던 분량의 엔지니어링 작업을 며칠 단위로 압축한 결과다. 앤스로픽은 이 모델을 지금까지 광범위하게 배포한 것 중 가장 강력한 AI로 평가하며 생물학을 포함한 여러 분야에서의 역량을 강조했다.

다만 Fable 5는 Opus 모델 대비 두 배의 비용이 드는 고가의 모델이며, 엄격한 안전 가이드라인이 적용된다. 사이버 보안, 생물학, 화학, 모델 증류와 관련된 요청이 들어오면 모델은 자체 처리 대신 Opus 4.8로 질의를 넘기는 핸드오프 구조를 취한다. 앤스로픽은 이러한 안전 장치가 전체 세션의 5% 미만에서 작동한다고 밝혔으나, 일반적인 프롬프트에서도 답변이 거부되거나 강제로 모델이 전환되는 현상이 발생할 수 있다.

기존 방식과 달라진 지점

매달 20달러의 구독료를 지불하며 기대하는 고성능 모델의 응답은 언제나 완벽하게 제공되고 있는가. 앤트로픽이 새롭게 공개한 클로드 페이블 5는 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러의 비용을 요구한다. 이는 기존 모델인 오푸스보다 두 배 높은 가격으로, 200달러 요금제 사용자조차 빠르게 크레딧이 소진되는 현상을 겪고 있다. 성능은 정량적, 정성적으로 진전되었으나 319페이지에 달하는 시스템 카드는 이 모델이 가진 제약 사항을 상세히 명시한다.

사이버 공격의 정찰, 탐색, 수평 이동 등 에이전틱 해킹 능력을 갖춘 미토스급 모델은 취약점 발견과 악용에 특화되어 있다. 클로드 페이블 5와 미토스 5는 동일한 모델 가중치를 공유하지만, 페이블 5에는 훨씬 엄격한 안전장치가 적용되었다. 생물학, 화학, 사이버 보안 등 고위험군으로 분류되는 질문이 감지되면 모델은 답변을 거부한다. 앤트로픽은 이러한 위험한 질문을 차단하기 위해 별도의 안전 시스템을 구축했다.

사용자가 클로드 계정에서 메시지 플래그 시 모델 전환 옵션을 활성화하면, 정책 위반으로 판단된 요청은 자동으로 클로드 오푸스 4.8로 넘어간다. API나 공식 웹 앱은 안전 가이드라인 충돌 시 대응이 제한적이지만, 커서(Cursor, AI 기반 코드 에디터)의 에이전트 뷰를 활용하면 모델 간 전환 메커니즘을 통해 작업을 이어갈 수 있다. 특정 도메인의 질문이 거부되는 현상은 모델의 성능 부족이 아니라 설계된 안전 체계에 따른 결과다.

기술이 실제로 작동하는 방식

어제 학계의 프로토타입이었던 아키텍처가 오늘 프로덕션 환경에 바로 적용된다. 지금의 격차는 순수 기술의 진보 속도가 아니라, 인프라의 배포 및 상용화 파이프라인 속도에서 발생한다. 앤트로픽이 공개한 Fable 5는 Mythos 등급의 모델로, 이전까지 소수의 사이버 방어자와 미국 정부에만 제한적으로 제공되던 최상위 계층의 성능을 대중에게 공개했다. 해당 모델은 Mythos 5와 동일한 가중치와 훈련 기반을 공유하며, 일반 사용자에게는 안전 계층인 분류기가 적용된 버전이 제공된다. GPT-4 출시 이후 가장 큰 성능 향상을 보여준 모델로 평가받는 Fable 5는 앤트로픽의 공식 아티클이나 Claude를 통해 세부 정보를 확인할 수 있다.

길고 복잡한 작업을 처리하는 능력 면에서 Fable 5는 앤트로픽이 테스트한 거의 모든 벤치마크에서 최고 성능을 기록했다. 짧은 작업은 기존 모델로도 대부분 해결할 수 있었으나, 사람의 개입 없이 수 시간 동안 이어지는 다단계 작업에서 Fable 5의 성능 우위가 두드러진다. 다만, Mythos 클래스 모델은 소프트웨어 취약점을 찾아내고 공격을 용이하게 할 수 있는 강력한 성능을 지니고 있어 앤트로픽은 미국 정부와 협력하여 접근 권한을 단계적으로 확대하는 방식을 취하고 있다.

운영 방식의 변화도 예고되었다. 6월 22일부터 Fable 5는 기존 클로드 구독 요금제에서 제외되며 사용량 기반의 크레딧 결제 방식으로 전환된다. Pro나 Max와 같은 기존 구독 플랜을 이용 중인 사용자라도 해당 시점 이후에는 모델 사용이 불가능해진다. 이는 고성능 모델의 운영 비용을 충당하기 위한 조치로, 향후 고성능 AI 모델을 에이전트 워크플로우에 적극적으로 활용할 수 있는 사용자와 그렇지 못한 사용자 간의 기술적 격차가 더욱 심화될 것으로 보인다.

앤트로픽이 클로드 파블 5(Claude Fable 5)

일반 사용자에게 공개된 클로드 파블 5(Claude Fable 5)와 달리, 동일한 모델 구조를 공유하면서도 안전 장치를 제거한 클로드 미토스 5(Claude Mythos 5)는 글래스 윙 파트너스(Glass Wing partners)와 같은 제한된 대상에게만 제공된다. 앤트로픽은 파블 5가 이전 모델보다 더 적은 토큰으로 더 오랜 시간 자율적인 작업이 가능하다고 밝혔는데, 이는 사용자가 지불하는 비용 효율성과 직결되는 지점이다. 미토스 클래스 모델은 사이버 보안 능력이 지나치게 높아 악의적인 사이버 공격이나 위험한 생물학 연구에 악용될 가능성이 크기에 강력한 안전 장치가 적용되었다.

파블 5는 고등학생 수준의 기초적인 생물학 질문조차 직접 답변하지 않고 이전 플래그십 모델로 질의를 넘기는 핸드오프(handoff) 구조를 취한다. 또한 오픈AI(OpenAI)나 딥시크(DeepSeek) 같은 경쟁사가 자사 모델을 활용해 거대언어모델(LLM) 개발 파이프라인을 구축하지 못하도록 스티어링 벡터나 프롬프트 수정 등 보이지 않는 안전 장치를 내장했다. 이러한 제어 방식은 모델의 답변을 의도적으로 우회하게 만드는 결과를 낳는다.

시각 능력만으로 포켓몬 파이어레드(Pokemon Fire Red)를 처음부터 끝까지 플레이하는 데모는 기존 모델이 필요로 했던 복잡한 보조 시스템 없이도 파블 5가 원시 스크린샷만으로 게임을 수행할 수 있음을 입증했다. 클로드 아티팩트(Claude Artifacts)를 활용하면 네트워크 패킷 데이터를 3D 자동차 애니메이션으로 변환하거나 복잡한 3D 게임 에셋을 생성하는 등 고도화된 시각화 작업도 가능하다.

클로드 파블 5는 현재 세계 최고 성능 모델로, 오푸스 4.8

최신 AI 모델이라면 모든 질문에 막힘없이 답할 것이라는 기대는 오해다. 클로드 파블 5(Claude Fable 5)는 소프트웨어 엔지니어링, 과학 연구, 시각 작업 등 거의 모든 벤치마크에서 오푸스 4.8(Opus 4.8), 제미나이(Gemini), 챗GPT(ChatGPT) 모델을 압도하는 성능을 보이지만, 특정 영역에서는 의도적으로 답변을 거부한다.

앤트로픽(Anthropic)은 파블 5가 바이러스 외피 조립의 유전적 변화를 예측하는 테스트에서 전문 단백질 모델을 능가하는 고도화된 추론 능력을 입증했다고 밝혔다. 이러한 성능은 유전자 치료 연구에 기여할 수 있지만, 동시에 이중 용도 위험을 내포하고 있어 보안 정책이 우선 적용된다. 실제로 사이버 보안이나 생물학적 주제 등 고위험군 질문이 들어오면 모델은 즉시 답변을 멈추고 클로드 오푸스 4.8로 처리를 넘긴다. 실제 테스트 과정에서 약 75%의 프롬프트가 이러한 안전 장치에 걸려 대화가 일시 중단되는 현상이 나타났다.

성능 면에서 파블 5는 이전 버전인 미토스 프리뷰(Mythos preview)는 물론, GPT 5.5나 제미나이 3.1 프로보다 우수한 수치를 기록했다. 앤트로픽은 1,000시간 이상의 외부 버그 바운티 프로그램을 통해 범용 탈옥 시도를 차단하는 등 안전성을 검증했다. 실무자는 이러한 모델 간 핸드오프 구조를 이해해야 복잡한 워크플로우 설계 시 발생하는 답변 거부 현상에 유연하게 대응할 수 있다.

클로드 페이블 5는 생물학 분야의 뛰어난 성능을 내세우면서도 기초적인 질문에는 직접 답변하지 않고 이전 플래그십 모델로 처리를 넘기는 핸드오프 구조를 채택했다. 이는 최신 모델이 모든 도메인을 단독으로 처리하는 것이 아니라, 안전과 비용 효율을 위해 모델 간 역할을 분담하는 방식으로 진화했음을 의미한다.

실무자는 모델이 특정 질문을 거부하거나 내부적으로 전환되는 과정을 단순한 오류가 아닌 설계된 워크플로우의 일부로 인식해야 한다. 결국 AI 모델의 성능을 온전히 활용하는 능력은 모델의 응답을 기다리는 것이 아니라, 각 모델의 도메인 특성과 연동 체계를 사전에 파악해 설계하는 구조적 이해도에서 결정된다.