작업에 최적화된 하네스를 즉석에서 작성

복잡한 코딩 작업을 수행하다 보면 모델이 지시사항을 잊거나 도중에 멈추는 일은 흔한 경험이다. Claude Code의 동적 워크플로우는 이런 한계를 극복하기 위해 작업 목적에 최적화된 하네스를 즉석에서 직접 작성하는 방식을 택했다. 기존에 개발자가 별도로 구축하던 맞춤형 하네스를 코드 내부에서 네이티브로 처리하며, JavaScript 파일을 실행해 서브에이전트를 생성하고 조율한다. 이 과정에서 각 에이전트가 사용할 모델과 작업 환경인 워크트리(worktree) 격리 여부까지 세밀하게 선택할 수 있다.

단일 컨텍스트 윈도우에서 발생하는 에이전트의 실패 모드는 구조적으로 방지된다. 하나의 컨텍스트에서 작업을 오래 진행할 때 나타나는 에이전트의 나태함이나 목표 이탈, 자기 참조적 편향 같은 문제는 분리된 컨텍스트와 격리된 목표를 가진 여러 Claude를 조율함으로써 해결한다. 특히 복잡한 작업을 수행하며 도출된 경로와 패턴은 '스킬'로 구체화되어 저장된다. 이를 통해 모델 마이그레이션과 같은 특정 업무를 향후 동일하게 반복할 때 재사용이 가능하다.

안전한 코드 실행을 지원하는 인프라로는 LangSmith Sandboxes가 활용된다. 이 도구는 핵심 런타임으로부터 코드를 분리해 안전하게 실행하는 격리된 환경을 제공하며, P50 기준 0.98초의 샌드박스 스핀업 시간을 기록한다. 수천 개의 샌드박스를 동적으로 생성하고 오케스트레이션할 수 있어 대규모 워크로드 처리에 최적화된 성능을 보인다.

기존 방식과 달라진 지점

Opus 4.8의 Fast Mode는 기존 모델 대비 약 2.5배 빠른 250 토큰/초의 응답 속도를 구현한다. API 환경에서 /fast 명령어를 입력하면 즉시 활성화되는 이 기능은, 단순한 속도 개선을 넘어 대규모 데이터 처리 효율을 실질적으로 끌어올린다. 특히 로컬 컴퓨터에 저장된 JSONL 대화 기록을 외부 에이전트들이 분산 처리하는 다이내믹 워크플로우를 적용하면, 기존 대화창의 컨텍스트 윈도우를 소모하지 않고도 복잡한 분석을 수행할 수 있다.

다학제적 추론 능력을 측정하는 Humanity's Last Exam 벤치마크에서 Opus 4.8은 도구 사용 여부와 관계없이 이전 모델보다 3포인트 높은 점수를 기록했다. 이러한 성능 향상은 데이터 분석 도구인 Hex나 자동화된 침투 테스트를 수행하는 Xbow, Koridor와 같은 영역에서 코딩 에이전트의 활용 범위를 넓히는 기반이 된다. Stagehand를 통한 Playwright 테스트나 Claude computer use를 이용한 시스템 제어 등, 에이전트의 역할은 이제 단순 코드 작성을 넘어선다.

앤스로픽은 최근 미국 증시 상장을 위해 비공개로 서류를 제출했으며, 현재 기업 가치는 1조 달러에 육박하는 수준으로 평가받는다. 이번 IPO는 매출 성장률, 추론 비용, 매출 총이익 및 클라우드 약정 등 구체적인 재무 지표를 시장에 공개해야 한다는 점에서 AI 산업의 거품 여부를 가릴 실질적인 검증대가 될 전망이다. 실제 Polymarket과 Hyperliquid 플랫폼에서 진행한 Opus 4.8 기반 트레이딩 테스트에서는 플랫폼별로 상이한 결과가 나타나기도 했다.

새로운 AI 모델 'Opus 4.8'을 출시함

Claude Code의 동적 워크플로우(Dynamic Workflows) 기능을 활용하면 개인화된 모델 활용 보고서와 튜토리얼을 1시간 이내에 생성할 수 있다. 사용자는 로컬에 저장된 1,500여 건의 대화 기록(JSONL 형식)을 분석해 자신의 작업 패턴에 최적화된 가이드를 얻는다. Claude code guide agent는 Anthropic의 공식 문서와 릴리스 노트를 확인하는 PhD 과학자 역할을 수행하며, 최신 사양을 바탕으로 사용자의 질문에 정확한 답변을 제공한다.

이 기술은 마이그레이션, 딥 리서치, 코드 정렬, 트리아지(우선순위 분류), 근본 원인 조사 등 코딩 외의 논리적 구조를 가진 비기술적 작업에서도 높은 효용을 보인다. 특히 동적 워크플로우 연구 프리뷰 기능은 Claude가 스스로 계획을 세우고 수백 개의 병렬 하위 에이전트를 실행해 작업을 검증한다. 대규모 파일 이동과 같은 고난도 업무를 처리할 때 Claude는 Classify-and-act, Fan-out-and-synthesize, Adversarial verification, Generate-and-filter, Tournament, Loop until done 등 다양한 조율 패턴을 조합해 결과의 정확도를 높인다.

투자금과 참여 투자자가 보여주는 신호

시리즈 H 라운드에서 650억 달러를 조달하며 기업 가치 9,650억 달러를 기록했다는 소식이 전해지자 시장의 이목이 앤스로픽(Anthropic)으로 쏠렸다. 이번 투자 유치로 앤스로픽은 오픈AI(OpenAI)를 제치고 비상장 기업 중 세계에서 가장 높은 가치를 지닌 스타트업이 되었다. 상장을 앞둔 스페이스X, 앤스로픽, 오픈AI 간의 경쟁은 누가 먼저 시장에 데뷔해 초기 자본과 주목도를 선점하느냐는 전략적 승부로 이어지고 있다.

AI 에이전트가 실무 현장에서 생성하는 코드 비중은 이미 임계점을 넘었다. 순다 피차이 구글 CEO는 구글 전체 코드의 75%가 AI에 의해 생성된다고 밝혔으며, 깃허브(GitHub) 데이터에 따르면 올해 전체 커밋의 41%가 AI에서 발생했다. 스트라이프(Stripe)의 내부 코딩 에이전트 'Minions'는 주당 1,300개의 PR을 생성하며 자동화의 효율을 증명하고 있다.

기술적 성능 지표에서도 Claude Opus 4.8은 Swebench Pro 벤치마크에서 69.2%를 기록하며 6주 전 출시된 Opus 4.7 대비 5% 포인트 상승한 성과를 보였다. 다만 터미널 코딩 능력을 측정하는 Terminal Bench 2.1에서는 GPT-5.5가 78.2%로 앞서 있다. 현재 Claude Opus 4.8은 Hyperliquid에서 메모리 칩 슈퍼 사이클 롱 포지션과 은 롱 포지션을 결합하거나, Polymarket에서 비트코인 가격 변동폭에 따라 진입하는 등 복합적인 전략을 스스로 수립하는 단계에 진입했다.

기존 정적 워크플로우가 모든 예외 상황에 대응해야 하는 일반적인 방식이었다면, 이제는 Claude Opus 4.8과 동적 워크플로우를 결합해 사용 사례에 맞춘 맞춤 하네스를 직접 구축할 수 있다. 이는 에이전트가 단순히 코드를 짜는 것을 넘어, 상황에 맞는 구조를 직접 설계하고 조율하는 지능적 워크플로우로 나아가고 있음을 보여준다.

기존 가격을 유지하며 성능을 개선한 Claude Opus

오픈AI가 GPT-5.6 출시를 앞두고 코딩 능력의 비약적 발전을 예고하는 동안, 앤스로픽은 정반대 방향에서 승부수를 던졌다. Claude Opus 4.8을 내놓으면서 가격은 이전 모델과 동일하게 유지한 것이다. Opus 4.7 대비 더 날카로운 판단력과 향상된 독립적 작업 수행 능력을 갖췄지만, 사용자 입장에서 비용 부담은 늘지 않았다. 실질적인 비용 절감 효과를 노린 선택이다.

벤치마크에서 코딩과 추론, 컴퓨터 사용 능력이 소폭 향상된 것 외에 가장 두드러진 개선점은 모델의 정직성이다. Opus 4.8은 불확실한 내용을 더 잘 식별하고 근거 없는 주장을 줄이는 방향으로 튜닝됐다. 자신의 한계를 더 솔직하게 인정하게 만든 셈이다.

이런 접근은 AI 에이전트의 코드 실행 권한이 확대되는 현실과 맞물려 의미를 갖는다. 에이전트가 브라우저나 시스템 전체를 제어하게 되면서 샌드박스 탈출, 프롬프트 인젝션, 공급망 공격 같은 보안 위협이 현실화되고 있다. 최근 n8n과 구글의 AI 에이전트 브라우저에서 실제로 샌드박스 탈출 취약점이 발견된 바 있다. 모델이 스스로 알 수 없는 것을 구분하지 못하면, 자동화된 작업의 위험성은 그대로 증폭된다.

한편 오픈AI는 GPT-5.6을 곧 출시할 것이라는 관측이 나온다. 코딩 능력의 발전 폭이 워낙 커서 업계 일각에서는 GPT-6로 불러야 한다는 의견까지 제기된다. 앤스로픽이 가격 동결과 정직성 강화로 실용적 신뢰를 쌓는 전략을 택했다면, 오픈AI는 성능 도약으로 시장의 기대치를 다시 한 번 끌어올리는 구도다.

복잡한 지시사항을 중간에 잊거나 작업을 멈추는 에이전트의 태만은 더 이상 모델 크기나 프롬프트 엔지니어링으로 해결할 문제가 아니다. 앤스로픽이 Claude Code에 도입한 동적 워크플로우는 이 지점을 정확히 겨냥한다. 작업 목적에 맞는 하네스를 자바스크립트로 즉석에서 작성해 서브에이전트를 생성하고, 팬아웃-합성과 적대적 검증 같은 구조화된 패턴으로 단일 컨텍스트 윈도우의 편향을 통제한다.

코딩 에이전트의 경쟁 축이 속도나 토큰 처리량에서 워크플로우의 구조적 무결성으로 이동하고 있다. 수천 개 샌드박스를 동적으로 오케스트레이션하는 이 접근은 에이전트가 얼마나 많은 코드를 생성하느냐가 아니라, 얼마나 적게 이탈하느냐로 신뢰를 쌓는 국면이 왔음을 보여준다.