플래그십 성능을 미드티어 가격으로 구현한 소네트 5의 등장

이번 업데이트에서 가장 먼저 눈에 띄는 건 가격과 성능의 균형점이다. 앤스로픽(Anthropic)은 플래그십 모델에 근접한 성능을 내면서도 가격은 중간 단계로 낮춘 '클로드 소네트 5(Claude Sonnet 5)'를 공개했다. 이 모델은 앤스로픽의 무료 및 프로 플랜 사용자에게 기본 모델로 제공되며, 맥스(Max), 팀, 엔터프라이즈 고객도 사용할 수 있다.

가격 정책은 공격적이다. 8월 31일까지 적용되는 도입기 API 가격은 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 10달러다. 이후 표준 가격인 입력 3달러, 출력 15달러로 인상되지만, 최상위 모델인 오퍼스 4.8(Opus 4.8)의 가격(입력 5달러, 출력 25달러)과 비교하면 약 60% 저렴한 수준이다.

성능 지표는 소네트 5가 단순한 보급형 모델이 아님을 보여준다. 앤스로픽이 공개한 5개 주요 평가 항목에서 오퍼스 4.8과의 격차를 좁혔으며, 지식 작업 벤치마크인 GDPval-AA v2에서는 1,618점을 기록해 오퍼스 4.8의 1,615점을 앞질렀다. 에이전트 코딩 능력을 측정하는 SWE-bench Pro에서는 63.2%를 기록해 전작인 소네트 4.6(58.1%)보다 크게 상승했으며, 오퍼스 4.8의 69.2%에 근접했다. 터미널 벤치(Terminal-Bench 2.1)에서도 80.4%를 기록하며 전작(67.0%) 대비 비약적인 발전을 이뤘다. 다학제적 추론을 측정하는 '인류의 마지막 시험(Humanity's Last Exam)'에서는 도구 사용 시 57.4%를 기록, 오퍼스 4.8의 57.9%와 사실상 동일한 수준에 도달했다.

'챗봇'에서 '에이전트'로, 기업 채택의 경제학을 바꾸는 흐름

단순한 질의응답을 넘어 AI가 스스로 계획을 세우고 브라우저나 터미널 같은 도구를 사용해 다단계 워크플로우를 수행하는 '에이전트' 역량이 이번 모델의 핵심이다. 이는 2026년 AI 산업의 무게중심이 챗봇에서 자율적 실행 시스템으로 이동했음을 보여준다. 기업들은 이제 단순한 답변이 아니라, 복잡한 소프트웨어 환경을 탐색하고 최소한의 인간 감독하에 코딩 작업을 완수하는 시스템을 요구하고 있다.

실제 도입 사례에서 나타나는 변화는 '완결성'이다. AI 코드 에디터 커서(Cursor)의 공동 창업자 수알레 아시프(Sualeh Asif)는 소네트 5가 계획을 유지하며 깨끗한 다단계 변경 사항을 효율적인 비용으로 배포한다고 평가했다. 재피어(Zapier)의 시니어 엔지니어 다니엘 셰퍼드(Daniel Shepard) 역시 과거 모델에서는 중간에 멈췄던 '세일즈포스 계정 등급 업데이트 및 출시 공지 발송'이라는 2단계 자동화 작업이 소네트 5에서는 끝까지 완수되었다고 설명했다.

이러한 신뢰성 향상은 기업들이 AI 에이전트를 파일럿 단계에서 실제 프로덕션(실서비스)으로 전환하는 결정적인 근거가 된다. 작업의 80%만 수행하고 멈추는 모델은 오히려 관리 비용을 높이지만, 전체 워크플로우를 안정적으로 끝내는 모델은 자동화의 경제성을 완전히 바꾼다. 앤스로픽은 사용자가 비용과 정확도 사이에서 최적의 균형을 찾을 수 있도록 소네트 5와 오퍼스 4.8 간의 '비용-성능 곡선'을 함께 제시하며 기업의 선택지를 세분화했다.

한국 AI 실무자가 주목해야 할 비용 변수와 리스크 관리

국내 개발자와 기업 실무자가 가장 주의 깊게 살펴야 할 지점은 토크나이저(Tokenizer, 텍스트를 모델이 이해하는 단위로 나누는 도구)의 변경이다. 소네트 5는 오퍼스 4.7에서 도입된 것과 유사한 업데이트된 토크나이저를 사용한다. 이로 인해 동일한 입력값이라도 콘텐츠 유형에 따라 토큰 수가 약 1.0배에서 1.35배까지 증가할 수 있다.

앤스로픽은 도입기 가격 책정을 통해 이 전환이 '비용 중립적'이 되도록 조정했다고 설명하지만, 대규모 워크로드를 운영하는 기업은 단순 단가 하락만 믿기보다 실제 사용 사례를 기반으로 벤치마크를 수행해 청구 비용의 변화를 직접 확인해야 한다.

보안과 안전성 측면의 변화도 관찰 대상이다. 소네트 5는 전작보다 환각(Hallucination)과 아첨(Sycophancy) 현상이 줄었고 프롬프트 인젝션 공격에 더 강해졌다. 다만, 성능이 더 높은 오퍼스 4.8이나 사이버 보안 특화 모델인 미토스 프리뷰(Mythos Preview)보다는 정렬되지 않은 행동(misaligned behavior) 비율이 다소 높게 나타났다. 특히 모질라(Mozilla)와 협업한 파이어폭스 147 익스플로잇 개발 평가에서 소네트 5는 13.2%의 부분 성공률을 보였다. 이 때문에 앤스로픽은 소네트 5에 위험한 사이버 보안 사용을 감지하고 차단하는 '사이버 가드레일'을 기본으로 적용했다.

결국 이번 출시는 앤스로픽의 IPO(기업공개) 전략과 맞물려 있다. 6월 초 SEC(미국 증권거래위원회)에 상장 신청서를 제출한 앤스로픽은 9,650억 달러의 기업 가치를 인정받은 상태다. 월스트리트가 주목하는 것은 단순한 매출 규모보다 '총마진(Gross Margin)'과 '광범위한 채택률'이다. 소네트 5를 통해 고성능 모델의 진입 장벽을 낮춰 수천 개의 기업 고객으로부터 대량의 반복적인 API 매출을 끌어내려는 전략으로 풀이된다.