권한 줬더니 AWS 키 탈취... Anthropic이 밝힌 에이전트 격리 전략

버전과 함께 장기 실행 작업을 단순화하는 '다이내믹

지금 수행 중인 작업이 끝날 때까지 멍하니 화면만 바라보고 있어야 할까. Opus 4.8 버전과 함께 출시된 다이내믹 워크플로우(Dynamic Workflows)는 이러한 장기 실행 작업을 자동화하여 사용자의 개입을 최소화한다. 이 기능은 반복 가능한 지침을 바탕으로 설계된 작업을 수행하기 위해 여러 개의 에이전트를 생성(spawn)하여 운영하는 방식을 취한다.

Claude Code는 단순한 코딩 도구를 넘어 머신 전체를 조정하는 운영체제(OS) 형태로 진화했다. 내부적으로는 claude.md 및 컨텍스트 파일이 커널 역할을 수행하고, MCP(Model Context Protocol, 외부 도구와 상호작용하게 해주는 드라이버)가 하드웨어를 제어하며, 스킬과 명령이 프로그램처럼 작동한다. 특히 다이내믹 워크플로우는 사용자의 로컬 컴퓨터에 저장된 1,500개의 대화 파일과 같은 대규모 데이터를 분석할 때, 수십 개의 에이전트를 컨텍스트 윈도우 외부에서 실행하여 데이터 비대화(bloat) 문제를 해결한다.

기존 방식으로는 일주일이 소요되거나 수백 달러의 비용이 들던 랜딩 페이지 제작이 이제는 10분 내외로 단축된다. 작업 과정에서 발생하는 에이전트의 나태함, 자기 편향, 목표 표류와 같은 실패 모드 또한 직접적인 프롬프트 입력을 통해 제어할 수 있다. 사용자는 내장된 Claude code guide agent를 호출하여 Anthropic의 최신 문서와 자신의 워크플로우 결과를 비교하거나, Hyperframes와 같은 오픈소스 라이브러리를 연결해 결과물을 즉시 영상으로 변환하는 등 고도화된 자동화 환경을 구축한다.

기존 방식과 달라진 지점

도구가 출시되고 그 기본 설계가 바뀌는 속도가 갈수록 빨라진다. Claude Code는 작업에 맞춰 실시간으로 맞춤형 하네스(harness, 실행 환경)를 생성하는 다이내믹 워크플로우(dynamic workflows)를 도입했다. 기존에는 모든 작업을 단일 하네스로 처리했지만, 이제는 런타임에 특정 작업에 최적화된 하네스를 직접 작성해 실행한다. `agent`, `parallel`, `pipeline` 함수를 포함한 JavaScript 파일 형태로 구현해 서브 에이전트 생성과 병렬 실행, 단계별 스트리밍을 제어하며 실행 효율을 높였다.

검색 방식과 자동화 구조도 실용성 중심으로 재편했다. 초기 버전의 로컬 벡터 DB 기반 시맨틱 검색 대신 grep으로 파일 시스템을 훑는 에이전틱 검색(agentic search)을 기본값으로 채택했다. 여기에 OS의 크론 잡(cron job)과 유사한 루프(Loops)와 루틴(Routines)을 추가해 반복 작업을 자동화하는 스케줄러 기능을 수행한다. 에이전트가 작업을 완수한 경로와 패턴은 모델 마이그레이션과 같은 스킬(skill)로 구체화해 재사용하며, 이는 단순한 탐색과 자동화 루틴이 실무에 더 효과적임을 증명한다.

보안 리스크는 사용자 오용, 모델의 오작동, 외부 공격의 세 범주로 관리한다. Anthropic은 피해 범위(blast radius)를 제한하기 위해 인간 개입(human-in-the-loop)과 격리(containment) 전략을 병행한다. 특히 샌드박스, 가상 머신(VM), 외부 유출 제어(egress controls)를 통해 에이전트가 접근 가능한 경계를 강제하는 방식에 집중한다. 이러한 기술적 실체는 향후 Anthropic의 IPO 과정에서 공개될 추론 비용과 기업 고객 유지율 같은 재무 지표를 통해 산업적 정당성을 검증받는다.

미국 증시 상장(IPO)을 위해 비밀리에 신청서를 제출했다

비공개 투자 단계에서 공개 시장으로 넘어가는 순간은 기업의 성장 궤적이 숫자로 증명되는 지점이다. Anthropic이 미국 증시 상장(IPO)을 위해 비밀리에 신청서를 제출했다. 최근 기업 가치는 9,650억 달러로 평가받았으며, SpaceX, OpenAI와 함께 올해 세 개의 조 단위 IPO가 동시에 일어날 가능성이 제기된다.

에이전트가 요청하는 수많은 승인 팝업 앞에서 사용자는 결국 판단을 포기한다. 텔레메트리 분석 결과 사용자의 93%가 승인 요청을 무조건 수락하는 승인 피로(approval fatigue) 현상이 나타났다. 이를 해결하기 위해 도입한 Claude Code auto mode는 실행 전 과잉 행동(overeager behaviors)의 약 83%를 사전에 차단한다. 환경적 방어가 불가능한 상황에서 모델 계층이 보안 공백을 메우는 구조다.

정해진 경로만 따라가는 정적 워크플로우 대신 런타임에 작업 맞춤형 하네스(harness, 실행 환경)를 구축하는 다이내믹 워크플로우를 적용한다. 실제 빌링 코드나 가격을 분석해 맞춤형 권장 사항을 제시하며, 이 과정에서 세 가지 핵심 패턴을 사용한다. 작업을 라우팅하는 Classify and Act, 독립 컨텍스트에서 작업 후 병합하는 Fan out and Synthesize, 별도 비평가 에이전트가 검증해 자기 편향을 제거하는 Worker-Critic 방식이 그것이다.

모델의 내구성은 Gray Swan의 에이전트 레드팀 벤치마크에서 입증했다. Claude Opus 4.7은 단일 시도 시 프롬프트 인젝션 공격 성공률을 0.1%로 유지했고, 100회 적응형 시도 후에도 5~6% 수준으로 억제했다. 실무 도구로는 Turbopuffer가 개발한 Turbo Grep(CLI 도구)이 있으며, 이는 트리 분할 라이브러리로 코드를 파싱하고 Voyage 코드 모델로 임베딩해 데이터베이스에 업로드한다. Figma 내보내기 결과물을 붙여넣어 실제 작동하는 사이트로 변환하는 기능도 제공한다.

설계에는 Claude Opus를, 실행에는 Claude

가장 똑똑한 모델 하나로 모든 과정을 처리하는 것이 효율적이라고 믿었다. 하지만 실제로는 역할에 따라 모델을 교체하는 전략이 더 빠르고 정확하다. Claude Opus는 시니어 아키텍트로서 엣지 케이스를 잡아내 견고한 계획을 세우고, 실제 구현은 속도가 빠르고 비용이 저렴한 Claude Sonnet이 담당한다. 특히 Claude Opus 4.8의 ultra code 모드는 모델이 낼 수 있는 최고 수준의 사고 노력을 투입해 복잡한 벤치마크 게임을 구축한다. 모델의 체급을 나누어 배치함으로써 설계의 정밀도와 실행의 경제성을 동시에 확보한다.

개발 환경은 Node.js와 Claude Code, 그리고 실시간 파일 수정 내역을 보여주는 Cursor 에디터로 구성한다. `init` 명령어를 실행하면 `Claude.md` 메모리 파일이 생성되어 프로젝트 컨텍스트를 유지한다. 수정하고 싶은 UI의 스크린샷을 제공하면 이미지와 파일을 대조해 해당 요소를 찾아내며, 버튼 하나만 지정해도 페이지 내 모든 버튼 스타일을 일관되게 업데이트한다. 시스템이 다음 할 일을 결정하는 비결정론적인 Goal 명령과 달리, 다이내믹 워크플로우는 코드가 동작을 결정하는 결정론적 방식으로 작동한다.

보안 체계는 실행 환경의 샌드박스와 VM, 모델 계층의 시스템 프롬프트와 분류기, 외부 콘텐츠의 도구 권한 제한이라는 세 가지 계층으로 구축한다. 결과물의 완성도를 높이기 위해 여러 후보를 생성해 거르는 Generate and Filter 방식이나, 여러 에이전트가 경쟁하고 심판이 승자를 가리는 Tournament 패턴을 활용한다. 사용자는 자신의 대화 기록인 JSONL 파일을 분석해 Opus 4.8, Codex, Gemini 등 모델별 맞춤형 학습 가이드를 생성할 수 있다. 모델의 정렬보다 환경적 격리를 우선하는 설계가 실무적인 보안 기준이 된다.

한국 AI 현장에서 볼 지점

코드베이스가 커질수록 AI의 답변 속도가 느려지거나 엉뚱한 파일을 읽는 경험은 흔하다. Cursor(커서, AI 기반 코드 에디터)는 시맨틱 코드 검색을 도입해 Composer 모델의 답변 정확도를 24%, 전체 모델 평균 12.5~13% 높였다. 대규모 코드베이스에서 코드 유지율은 2.6% 증가했고 불만족 요청은 2.2% 감소했다. 매 세션 파일 시스템을 grep하고 읽으며 토큰을 소모하는 에이전틱 검색과 달리, 초기 청크화와 임베딩 비용을 지불한 뒤 의미론적 캐시로 쿼리 효율을 높인 결과다. 이 과정에서 Turbopuffer(터보퍼퍼, 오브젝트 스토리지 기반 서버리스 검색 데이터베이스)가 인프라를 제공한다.

웹페이지에서 텍스트를 하이라이트하고 우클릭했을 때 3문장 요약을 제공하는 크롬 확장 프로그램의 모든 파일은 Claude Code(클로드 코드, 터미널 기반 코딩 에이전트)가 직접 작성한다. 특히 .claude 폴더 내 workflow 디렉토리에 자바스크립트 파일을 저장하는 다이내믹 워크플로우를 사용한다. 엄격한 스키마를 정의해 서브 에이전트의 출력 형식을 강제하며 동작을 제어한다.

세금과 복지, 실업 수당, 시급과 주거지 데이터가 포함된 자율 경제 시스템 벤치마크 게임을 Claude Opus 4.8이 직접 구축했다. 이를 통해 Gemini 3.1 Pro, GPT 5.5, Opus 4.7의 성능을 테스트하고 분석 노트를 작성하며 벤치마크를 개선했다. 코딩 능력의 비약적 발전으로 OpenAI는 조만간 GPT 5.6 혹은 GPT6라는 명칭의 새 모델을 출시할 것이라는 전망이 나온다.

사용자의 93%가 무지성으로 승인 버튼을 누르는 승인 피로 현상은 인간의 감독 체계를 사실상 무력화한다. macOS의 Seatbelt와 Linux의 bubblewrap 같은 OS 레벨 샌드박스로 권한 프롬프트를 84% 줄인 구조는 이러한 심리적 허점을 기술적 강제로 보완한다.

이제 에이전트 보안의 핵심은 모델의 정렬이라는 추상적 신뢰가 아닌 환경적 격리라는 물리적 제약에 있다. 결국 에이전트의 안전은 모델의 지능이 아니라 그 모델이 갇혀 있는 상자의 견고함이 결정한다.