99.8%의 테스트 통과율, Anthropic의 멀티 에이전트 워크플로우 공개

99.8%라는 수치는 최근 대규모 코드 마이그레이션 프로젝트에서 AI가 기록한 테스트 통과율이다. Anthropic이 선보인 Claude Opus 4.8과 다이내믹 워크플로우는 단순한 챗봇을 넘어 수천 개의 에이전트를 동시에 가동해 복잡한 소프트웨어 아키텍처를 직접 수정하는 단계로 진입했다. 과거에는 개발자가 일일이 검토하고 수정해야 했던 수십만 줄의 코드를 이제는 AI가 스스로 계획을 세우고 병렬적으로 처리한다. 그런데 이 기술이 단순히 성능 향상에 그치지 않고, 개발 현장의 비용 구조를 근본적으로 흔들고 있다. 고성능 모델을 저렴하게 사용할 수 있는 '패스트 모드'와 함께, 이제 AI는 보조 도구를 넘어 실무의 핵심 엔진으로 자리를 잡아가고 있다. 이번 업데이트가 실무 환경에 어떤 변화를 가져올지, 그 기술적 배경과 실질적인 활용 방안을 짚어본다.

Claude Opus 4.8과 다이내믹 워크플로우의 등장

앤스로픽(Anthropic)은 2026년 5월 28일 Claude Opus 4.8과 함께 다이내믹 워크플로우(Dynamic Workflows)를 연구 프리뷰로 공개하며 기능 구현 속도를 획기적으로 압축했다. 이번 업데이트의 핵심은 단일 모델의 응답을 기다리는 방식에서 벗어나 다수의 서브 에이전트를 병렬로 실행하는 자바스크립트 기반 오케스트레이션으로 전환한 점이다. 사용자는 Claude Code v2.1.154 이상의 버전을 설치해 CLI, 데스크톱, VS Code 확장 프로그램 환경에서 이 기능을 사용할 수 있다. 서비스 플랜은 Max와 Team에서는 기본 활성화되어 있으며 Enterprise 플랜은 관리자가 직접 권한을 부여해야 한다.

모델의 컨텍스트 윈도우에 모든 것을 담는 대신, 다이내믹 워크플로우는 작업 계획을 별도의 코드로 분리해 처리한다. 앤스로픽은 자바스크립트 스크립트를 통해 서브 에이전트들을 대규모로 제어하며, 중간 결과물을 컨텍스트가 아닌 스크립트 변수에 저장하는 방식을 택했다. 이 구조 덕분에 모델의 컨텍스트에는 최종 답변만 남게 되어 토큰 낭비를 줄이고 세션 반응성을 유지한다. 런타임 제약 조건은 최대 16개의 에이전트를 동시에 실행할 수 있으며, 한 번의 실행당 총 에이전트 수는 1,000개로 제한된다. 워크플로우 스크립트 자체는 파일 시스템이나 셸에 접근할 수 없으며, 실제 읽기, 쓰기, 명령어 실행은 하위 에이전트들이 전담한다.

자레드 섬너(Jarred Sumner)는 다이내믹 워크플로우를 사용해 Bun의 언어를 Zig에서 Rust로 포팅하는 작업을 수행하며 작업 시간 단축을 증명했다. 수백 개의 에이전트가 병렬로 투입되어 구조체 필드의 Rust 라이프타임을 매핑하고, 각 .rs 파일을 동일한 동작으로 구현하는 과정을 거쳤다. 파일당 두 명의 리뷰어 에이전트가 검증하고 수정 루프를 반복한 결과, 기존 테스트 스위트의 99.8%를 통과하는 약 75만 줄의 Rust 코드를 생성했다. 첫 커밋부터 머지까지 소요된 기간은 11일이다.

패스트 모드(Fast mode)의 도입으로 고성능 모델의 운영 비용과 속도 장벽이 낮아졌다. Claude Opus의 고속 설정 버전인 이 모드는 기존보다 2.5배 빠른 출력 토큰 속도를 제공한다. 특히 Opus 4.8의 패스트 모드 가격은 이전 버전인 4.7과 4.6 대비 3배 더 저렴하게 책정되었다. 사용자는 Claude Code에서 `/fast` 명령어로 이를 활성화할 수 있으며, 세션 활성화 시 작은 ↯ 아이콘이 표시된다. 이 모드는 플랜에 포함된 기본 사용량이 아니라 계정에 설정된 사용 크레딧(Usage credits)에서 차감된다. 빠른 반복 작업과 라이브 디버깅 환경에서 비용 효율성을 높인 구성이다.

서브 에이전트 오케스트레이션의 작동 원리

기존 AI가 복잡한 코딩 중 맥락을 놓쳤다면, 이제 Claude는 사용자의 프롬프트를 분석해 전체 작업을 여러 개의 서브태스크로 분할하는 과정을 먼저 거친다. 이 과정에서 Claude는 사용자의 요구사항을 바탕으로 직접 실행 스크립트를 작성한다. 작성된 스크립트는 런타임 환경에서 독립적인 에이전트들을 제어하며, 각 에이전트는 병렬로 문제를 해결하기 위해 투입된다. 기존의 방식이 Claude의 컨텍스트 윈도우 내에서 모든 정보를 처리하려 했다면, 이번 방식은 실행 계획 자체를 코드로 변환하여 컨텍스트 외부에서 관리한다는 점이 다르다. 중간 결과값은 스크립트 변수에 저장되고, 최종 결과물만이 Claude의 컨텍스트로 전달되어 효율성을 높인다.

실행 단계에 진입한 에이전트들은 독립적인 관점에서 문제에 접근하며 서로의 결과를 반박하고 검증하는 루프를 작동시킨다. 특정 에이전트가 내놓은 답을 다른 에이전트가 확인하고 오류를 지적하며, 정답에 수렴할 때까지 이 반복 과정을 거친다. 결과물은 검증을 통과한 뒤에야 전체 워크플로우에 통합된다. 이러한 협업은 대화창 외부에서 조율되므로, 작업이 중단되더라도 동일한 세션 내에서 이어서 진행할 수 있으며 완료된 에이전트의 결과는 캐시되어 재사용된다.

런타임 환경에는 시스템 안정성을 위한 명확한 제한 사항이 적용되어 있다. 한 번의 워크플로우에서 동시에 실행할 수 있는 에이전트는 최대 16개로 제한되며, 전체 런당 투입 가능한 에이전트 수는 1,000개를 넘길 수 없다. 보안을 위해 워크플로우 스크립트 자체는 파일 시스템이나 셸에 직접 접근할 수 없도록 설계되었다. 오직 개별 에이전트만이 명령을 수행하고 파일을 읽거나 쓰는 권한을 갖는다. 이러한 구조적 분리는 스크립트의 실행 로직과 실제 파일 조작 권한을 엄격히 분리하여, 자동화된 작업 과정에서 발생할 수 있는 의도치 않은 시스템 접근을 차단하는 역할을 한다.

기존 방식과의 차이: 컨텍스트 관리와 효율성

과거의 서브에이전트나 스킬 방식이 모든 데이터를 컨텍스트 윈도우(Context Window, 모델이 한 번에 처리할 수 있는 데이터 범위)에 누적했다면, 다이내믹 워크플로우(Dynamic Workflow)는 데이터 적재 구조 자체를 바꿨다. 전체 작업 계획을 컨텍스트 내부에 두지 않고 자바스크립트(JavaScript) 스크립트로 변환해 외부에서 처리한다. 작업 과정에서 발생하는 중간 결과물들은 컨텍스트 윈도우가 아니라 스크립트 변수에 저장된다. 모델의 컨텍스트에는 오직 최종 답변만 유지된다. 에이전트들이 백그라운드에서 작업하는 동안 사용자의 세션은 계속 응답 가능한 상태를 유지한다. 이는 대규모 작업 시 컨텍스트 포화로 인한 정보 손실이나 추론 속도 저하 문제를 해결하기 위한 설계다.

세션의 연속성을 유지하도록 설계한 덕분에 작업이 중단된 상황에서도 즉시 재개가 가능하다. 동일한 세션 내에서 중단된 지점부터 작업을 즉시 재개할 수 있으며, 이미 완료된 에이전트가 산출한 결과는 캐시(Cache, 데이터를 임시 저장해 빠르게 불러오는 기술)된 형태로 반환되어 중복 계산을 막는다. 런타임(Runtime, 프로그램 실행 환경)은 최대 16개의 에이전트를 동시에 실행하며, 전체 실행 횟수를 1,000개로 제한한다. 에이전트들은 문제를 서로 다른 독립적인 각도에서 접근하고, 다른 에이전트가 그 결과를 반박하는 과정을 거쳐 답변이 수렴될 때까지 반복한다. 워크플로우 스크립트 자체는 파일 시스템이나 쉘(Shell)에 접근할 수 없으며, 오직 할당된 에이전트만이 읽기, 쓰기 및 명령어 실행 권한을 가진다. 모든 조정 과정이 대화창 외부에서 이루어지기 때문에 작업 계획이 도중에 변질되지 않는다.

사용자는 프롬프트 어디든 `workflow`라는 키워드를 포함하거나, 설정에서 `ultracode`를 활성화해 이 기능을 호출할 수 있다. `ultracode`는 xhigh 추론 노력(reasoning effort) 설정과 자동 워크플로우 오케스트레이션(Orchestration, 여러 작업을 조율하고 배치하는 것)을 결합한 모드다. 클로드 코드(Claude Code)에 내장된 `/deep-research` 역시 이러한 워크플로우 기반으로 작동하는 내장 사례다. 모델은 프롬프트를 분석해 작업을 하위 태스크로 분할하고 이를 병렬로 배치한다. 결과물은 최종적으로 통합되기 전 검증 단계를 거친다. 제어권을 모델의 컨텍스트가 아닌 실행 스크립트로 옮겨 작업의 예측 가능성을 높였다.

99.8% 테스트 통과: Bun의 Rust 포팅 사례

누군가 몇 달간 코드를 한 줄씩 옮길 때, 번(Bun, 자바스크립트 런타임)의 창시자인 재러드 섬너(Jarred Sumner)는 11일 만에 프로젝트 전체를 러스트(Rust)로 재작성했다. 그는 다이내믹 워크플로우를 활용해 기존 지그(Zig) 언어로 작성된 번의 코드를 포팅하는 대규모 작업을 수행했다. 이 과정에서 생성된 러스트 코드는 약 75만 줄에 달하며, 기존에 번 프로젝트가 보유하고 있던 테스트 스위트의 99.8%를 통과하는 결과를 기록했다.

수백 개의 에이전트를 동시다발적으로 투입한 병렬 처리 구조가 이 작업의 핵심이다. 워크플로우는 먼저 각 구조체 필드에 적합한 러스트 라이프타임을 매핑하는 작업을 수행했다. 이후 수백 개의 에이전트가 각 파일을 개별적으로 맡아 동작이 동일한 러스트 코드로 변환했다. 이때 파일당 2명의 에이전트가 코드 리뷰어 역할을 수행하며 오류를 검증했고, 빌드와 테스트를 반복하는 루프를 통해 결과물을 정교화했다. 이처럼 복잡한 의사결정이 필요한 마이그레이션이 단 11일 만에 첫 커밋부터 머지 단계까지 완료된 것이다.

75만 줄의 방대한 코드베이스를 다루면서도 맥락을 놓치지 않았다는 점은 기존 AI 보조 도구들과 확연히 대비된다. 다이내믹 워크플로우는 중간 결과를 스크립트 변수에 저장하고 최종 결과물만을 컨텍스트에 담는 방식을 취한다. 덕분에 에이전트들이 독립적인 관점에서 문제를 해결하고, 서로의 결과를 반박하며 최적의 해답을 찾아가는 과정이 가능해졌다. 현재 이 결과물은 프로덕션 환경에 배포되기 전 단계에 머물러 있으나, 대규모 코드베이스의 구조적 전환을 AI가 주도할 수 있음을 보여주는 구체적인 지표로 활용되고 있다.

패스트 모드 도입과 한국 실무 환경의 비용 최적화

개발자가 코드 한 줄을 수정하고 AI의 응답을 기다리며 흐름이 끊기는 경험은 실무에서 매우 흔하다. Anthropic이 공개한 Opus 4.8 패스트 모드는 이 대기 시간을 물리적으로 줄이는 데 집중했다. 모델의 지능과 성능은 그대로 유지하면서 출력 토큰 속도를 2.5배 높였다. 응답 속도가 빨라지면 개발자는 실시간 디버깅 과정에서 사고의 흐름을 놓치지 않고 즉각적인 수정을 반복할 수 있다. 이는 단순한 속도 향상을 넘어 개발자가 AI와 상호작용하는 호흡 자체를 바꾸는 결과로 이어진다.

Opus 4.8 패스트 모드는 기존 대비 비용을 3배 절감하며 고성능 모델 도입의 가장 큰 제약이었던 추론 비용 문제를 해결했다. 모델의 지능은 유지하면서 가격만 낮춘 구성이다. 반복적인 테스트와 빠른 수정 사이클이 필수적인 한국의 소프트웨어 개발 환경에서 비용 3배 절감은 실질적인 도입 문턱을 낮추는 수치다. 특히 정답을 찾기 위해 수십 번의 프롬프트를 던져야 하는 반복 작업에 고성능 모델을 부담 없이 투입할 수 있는 경제적 근거가 된다.

Claude Code 환경에서 `/fast` 명령어 하나만 입력하면 즉시 패스트 모드로 전환된다. 활성화된 세션에서는 화면에 ↯ 아이콘이 표시되어 현재 상태를 직관적으로 확인할 수 있다. 이 기능은 계정에 설정된 사용 크레딧(Usage credits)을 소모하며, 요금제에 포함된 기본 사용량과는 별개로 작동하는 방식이다. 빠른 반복 작업이 필요한 라이브 디버깅 단계에서는 패스트 모드를 사용하고, 비용에 민감하거나 긴 호흡의 자율 작업이 필요할 때는 표준 모드를 선택해 비용을 최적화할 수 있다.

별도의 복잡한 설정 없이 Amazon Bedrock, Vertex AI, Microsoft Foundry 등 기존 클라우드 API 연동만으로 도입 속도를 높였다. 한국 기업들이 이미 구축해 놓은 클라우드 환경에서 Opus 4.8의 효율을 즉시 적용할 수 있는 경로다. 인프라 전체를 교체하는 리스크 없이 API 호출 설정만으로 추론 비용을 낮추고 응답 속도를 높이는 실무적 이점을 제공한다. 이는 클라우드 기반 AI 도입을 추진하는 기업에 비용 최적화라는 구체적인 선택지를 제시한다.

99.8%의 테스트 통과율은 단일 모델의 성능 개선이 아닌 멀티 에이전트 워크플로우라는 구조적 설계가 만들어낸 결과다. 앤스로픽은 프롬프트 하나로 최선의 답을 찾는 기존 방식에서 벗어나, 여러 에이전트가 역할을 분담하고 상호 검증하는 시스템의 실효성을 수치로 증명했다. 이제 AI의 경쟁력은 개별 모델의 추론 능력을 넘어, 이를 어떤 체계로 배치하고 연결하느냐는 오케스트레이션 역량에 의해 결정된다. 단순한 텍스트 생성을 넘어 정교한 업무 실행의 단계로 진입했다.