에이전트 능력이 강화된 중간 규모 모델 Claude

AI에게 질문을 던져 답을 얻는 단계를 넘어, 내 대신 브라우저를 켜고 실제 업무를 처리하는 에이전트 기능을 기대하는 사용자가 늘고 있다. 하지만 고성능 자율 모델을 실제 업무 프로세스에 도입하려면 막대한 운영 비용과 리소스를 감당해야 하는 현실적인 제약이 있었다. Anthropic은 이러한 비용 효율성 문제를 해결하고 에이전트의 범용성을 높이기 위해 능력이 강화된 중간 규모 모델 Claude Sonnet 5를 출시했다.

Claude Sonnet 5는 단순히 텍스트를 생성하는 것을 넘어 스스로 과업 수행을 위한 세부 계획을 수립하고, 브라우저와 터미널 같은 외부 도구를 직접 활용해 작업을 자율적으로 실행하는 능력을 갖췄다. Anthropic은 블로그 포스트를 통해 불과 몇 달 전까지만 해도 더 크고 비싼 모델이 있어야만 가능했던 수준의 자율성을 이 모델이 제공한다고 밝혔다. 이는 중간 규모 모델이 고사양 모델의 전유물이었던 복잡한 자율 실행 능력을 구현함으로써, 성능과 비용 사이의 간극을 획기적으로 좁힌 결과다.

해당 모델은 화요일부터 모든 구독 사용자가 즉시 이용할 수 있도록 배포됐다. 특히 무료 플랜과 Pro 플랜의 기본 모델로 설정되어, 개별 사용자가 고성능 에이전트 기능을 접하고 활용할 수 있는 진입 장벽을 대폭 낮췄다. 사용자는 이제 최상위 모델의 높은 비용 부담을 지지 않고도, 실무에 필요한 엔드-투-엔드 자동화 워크플로우를 자신의 환경에 직접 구현하고 검증할 수 있는 실질적인 기술적 기준을 갖게 됐다.

에이전트 코딩 및 지식 작업 벤치마크에서 성능 향상을 보였다

복잡한 연구는 최상위 모델에 맡기고 단순 작업은 보급형 모델로 처리하던 관행이 깨지고 있다. 에이전트 코딩 벤치마크에서 Claude Sonnet 5는 63.2%의 점수를 기록했다. 이는 이전 버전인 Sonnet 4.6이 기록한 58.1%보다 높은 수치이며, 최상위 모델인 Opus 4.8의 69.2%에 근접한 수준이다. 특히 지식 작업 벤치마크에서는 미세한 판단이나 심층 연구 같은 가장 어려운 문제들을 해결하는 데 강점이 있다고 알려진 Opus 4.8의 성능을 약간 상회하는 결과를 냈다.

작업 수행의 완결성과 자가 검토 능력에서도 유의미한 진전이 있었다. 이전 모델들이 복잡한 과업을 수행하다 중간에 멈췄던 것과 달리, 이번 버전은 작업을 끝까지 완수하는 능력이 대폭 개선되었다. 사용자가 명시적으로 요청하지 않아도 스스로 출력을 확인하고 검토하는 과정이 기본적으로 작동한다. 이는 AI가 단순한 응답기를 넘어 스스로 업무의 완성도를 점검하는 에이전트로서의 동작 방식을 갖췄음을 보여준다.

실제 현장에서는 다단계 업무의 완전한 자동화 사례가 구체적으로 확인되었다. Zapier(재피어, 서로 다른 앱을 연결해 업무를 자동화하는 서비스)의 시니어 엔지니어 Daniel Shepard는 Salesforce(세일즈포스, 고객 관계 관리 플랫폼) 계정 티어를 업데이트하고 기업 연락처로 출시 공지를 발송하는 2단계 작업을 끝까지 완수했다고 증언했다. 이를 통해 최상위 모델의 높은 비용 부담을 지지 않고도 엔드-투-엔드(end-to-end, 전 과정을 끊김 없이 처리하는 방식) 자동화 워크플로우를 구현할 수 있는 실질적인 판단 기준이 제시되었다.

에 근접한 성능을 제공하면서 비용은 더 저렴하게 책정되었다

복잡한 자동화 워크플로우를 구축하려 해도 매번 발생하는 API 비용 부담 때문에 실제 적용을 망설이는 경우가 많다. Claude Sonnet 5는 Opus 4.8에 근접한 성능을 내면서도 운영 비용을 대폭 낮춰 이 지점을 공략했다. 구체적으로 8월 31일까지 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 10달러로 책정되었으며 이 기간이 지나면 입력 비용은 3달러로 인상된다. 이는 Opus 4.8은 물론 OpenAI의 GPT-5.5, Google의 Gemini 3.1 Pro보다 저렴한 가격 구조다. 앤스로픽은 이 모델을 모든 구독 서비스에 제공하며 무료 및 Pro 플랜의 기본 모델로 설정해 접근성을 높였다.

모델의 안전성 지표 역시 이전 세대보다 향상된 수치를 보였다. Sonnet 4.6과 비교했을 때 기만이나 환각, 오용 협력 및 아첨 행동의 발생 비율이 낮아졌으며 외부에서 악의적인 지시를 내리는 프롬프트 주입 공격에 대한 방어 능력도 개선됐다. 다만 정렬되지 않은 행동, 즉 AI가 설계된 목적이나 인간의 의도에서 벗어나 작동하는 misaligned behavior 측면에서는 여전히 한계가 있다. 이 부분에서는 Opus 4.8이나 Claude Mythos Preview 수준의 안정성에 미치지 못했다. 최상위 모델의 비용 부담 없이 복잡한 엔드-투-엔드 자동화를 구현할 수 있을지는 이러한 안전성 격차를 감수하고도 효율을 낼 수 있는 작업 환경인지에 따라 결정된다.

질의응답을 넘어 브라우저를 직접 조작해 업무를 처리하는 에이전트 기능은 이제 실무 효율의 핵심이 됐다. 앤스로픽은 소네트 5로 에이전트 코딩 벤치마크 63.2% 달성과 오퍼스 4.8 대비 낮은 토큰 가격을 동시에 증명했다.

결국 최상위 모델의 비용 부담 없이 복잡한 엔드-투-엔드 자동화 워크플로우를 구현할 수 있는지가 실무 적용의 핵심 판단 기준이 된다. 고비용 모델의 의존도를 낮추고 실제 자동화 효율을 검증하는 단계로 진입했다.