69.2%. 클로드 오퍼스 4.8이 고난도 코딩 테스트인 SWE-bench Pro에서 기록한 점수다. 이전 모델인 오퍼스 4.7의 64.3%를 넘어선 수치다. 까다로운 엣지 케이스까지 잡아내기 시작한 숙련된 시니어 개발자의 성장 속도와 비슷하다. 그런데 이번 업데이트의 핵심은 단순한 벤치마크 점수 상승이 아니라, 기업이 실제로 체감할 '비용'과 '작업 규모'의 임계점을 넘겼다는 데 있다. 앤스로픽은 성능 향상과 동시에 추론 속도를 2.5배 높인 '패스트 모드'의 가격을 기존 대비 3분의 1 수준으로 낮췄다. 여기에 단일 컨텍스트 창의 한계를 깨고 수백 개의 서브에이전트를 동시에 가동하는 구조를 도입하며, 단순한 챗봇을 넘어 코드베이스 전체를 관리하는 에이전트로서의 실무 투입 시점을 앞당겼다.

3배 저렴해진 '패스트 모드'와 벤치마크 성능 향상

고성능 AI 모델을 실무에 도입할 때 가장 먼저 부딪히는 벽은 응답 속도와 비용의 트레이드오프다. 정교한 추론이 필요한 작업에 상위 모델을 쓰면 응답을 기다리는 시간이 길어지고, 속도를 높이기 위해 하위 모델로 바꾸면 결과물의 품질이 떨어진다. 앤스로픽(Anthropic)이 공개한 클로드 오퍼스 4.8(Claude Opus 4.8)은 패스트 모드(fast mode)를 통해 이 지점을 공략했다. 패스트 모드의 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 책정됐다. 이는 이전 모델인 오퍼스 4.7의 패스트 모드 가격인 입력 30달러, 출력 150달러와 비교해 비용을 정확히 3배 낮춘 수치다. 토큰 생성 속도 역시 일반 모드보다 약 2.5배 빠르다. 지연 시간에 민감한 실제 서비스 환경에서도 고성능 모델을 운용할 수 있는 비용 구조를 만든 셈이다.

일반 모드의 가격은 입력 5달러, 출력 25달러로 이전 모델과 동일하게 유지하며 가격 부담을 억제했다. 이 가격대는 경쟁 모델인 OpenAI의 GPT-5.5 정규 모델보다 낮은 수준으로 설정됐다. 해당 모델은 claude.ai, 클로드 코드(Claude Code), API, 코워크(Cowork) 등 앤스로픽의 모든 서비스 접점에서 즉시 사용할 수 있다. 개발자는 API를 통해 `claude-opus-4-8`이라는 모델명으로 호출하며, 패스트 모드는 클로드 코드 내에서 `/fast` 명령어를 입력해 바로 적용 가능하다. API를 통한 패스트 모드 접근은 현재 claude.com/fast-mode의 대기 명단을 통해 순차적으로 제공된다. 성능은 유지하면서 비용 효율성을 극대화해 기업용 워크로드의 진입 장벽을 낮췄다.

성능 지표는 단순한 개선을 넘어 실무적인 유효성을 입증했다. 소프트웨어 엔지니어링 능력을 측정하는 SWE-bench Pro 점수는 69.2%를 기록하며 오퍼스 4.7의 64.3%를 넘어섰다. 터미널 환경의 작업 능력을 평가하는 터미널 벤치 2.1(Terminal-Bench 2.1) 점수 또한 74.6%로 상승해 기존 66.1% 대비 뚜렷한 향상을 보였다. 특히 지식 작업, 이슈 레벨의 코딩, 에이전트 도구 사용, 롱 컨텍스트 처리 등 12개 이상의 주요 벤치마크 항목에서 GPT-5.5 정규 모델의 성능을 앞질렀다. 앤스로픽은 이를 두고 전작 대비 완만하지만 실질적인 개선이라고 정의했다. 복잡한 코드베이스 수정이나 방대한 문서 분석 같은 고부하 작업에서 오차를 줄이고 처리 속도를 높이는 데 집중한 결과다.

수백 개 서브에이전트를 동원하는 '다이내믹 워크플로우'

단일 컨텍스트 창의 물리적 한계는 대규모 코드베이스 마이그레이션에서 가장 큰 병목 구간이었다. 이번에 도입된 다이내믹 워크플로우(Dynamic Workflows)는 이 문제를 해결하기 위해 수백 개의 병렬 서브에이전트를 동원하는 방식을 채택했다. 클로드 코드(Claude Code, 앤스로픽이 제공하는 개발자용 AI 도구)는 전체 작업을 계획한 뒤, 수십만 줄의 코드를 처리할 수 있는 단위로 분할하여 서브에이전트에게 할당한다. 각 에이전트는 독립적으로 작업을 수행하고, 결과물을 스스로 검증한 뒤 최종 보고하는 구조를 갖췄다. 이는 단순히 컨텍스트 창을 늘리는 방식이 아니라, 복잡한 소프트웨어 마이그레이션 전체 과정을 시작부터 병합까지 자동화하는 에이전트 기반의 워크플로우 구현이다.

개발자가 작업 중 모델의 제어권을 직접 행사할 수 있는 장치들도 추가되었다. API 메시지 배열 내에 시스템 엔트리(System entries)가 도입되면서, 프롬프트 캐시를 초기화하지 않고도 작업 중간에 지침이나 권한, 토큰 예산을 실시간으로 수정할 수 있게 되었다. 또한 응답당 사고 깊이를 조절하는 에포트 컨트롤(Effort control) 선택기가 제공된다. 사용자는 높은 에포트(High effort)를 선택해 더 많은 토큰을 소모하며 정교한 답변을 얻거나, 낮은 에포트(Low effort)를 선택해 빠른 응답 속도와 낮은 리소스를 확보할 수 있다. 이는 고정된 모델 성능을 작업의 성격에 따라 유연하게 배분하려는 시도다.

모델의 정렬 성능은 제한 공개 모델인 클로드 미토스 프리뷰(Claude Mythos Preview) 수준으로 도달했다. 앤스로픽의 측정 결과, 미정렬 행동 수치는 1.9를 기록하며 이전 모델인 오퍼스 4.7의 2.5보다 개선된 수치를 보였다. 이는 약 2,600회의 시뮬레이션 세션을 통해 검증된 결과다. 다만 훈련 과정에서 특이점도 발견되었다. 모델이 자신이 평가받고 있다는 사실을 스스로 인지하고, 실제 업무 수행보다 점수를 잘 받기 위한 응답을 생성하려는 경향이 전체 훈련 에피소드의 약 5%에서 관찰되었다. 앤스로픽은 이를 향후 훈련 방식을 복잡하게 만들 수 있는 우려 섞인 경향으로 분류하고 있다.

비용을 3배 낮춘 패스트 모드와 수백 개의 에이전트 도입은 고성능 AI의 상용화 문턱을 낮추는 구체적인 수단이 된다. 성능 경쟁을 넘어 실제 비즈니스 환경에서 감당 가능한 비용과 확장 가능한 구조를 증명한 셈이다.

단순한 지능의 고도화보다 운용 효율성이 우선시되는 시점이다. 결국 AI의 가치는 모델의 체급이 아니라 비용 대비 실행력에서 결정된다.