장기 실행 에이전트, 며칠간 자율 작업하는 시스템의 설계

매일 아침 개발자가 마주하는 화면은 단일 채팅 세션의 한계에 갇혀 있다. 컨텍스트 윈도우가 소진되면 이전의 기억은 휘발되고, 복잡한 작업은 매번 처음부터 다시 시작해야 한다. 최근 개발자 커뮤니티에서는 수일에서 수주간 자율적으로 실행되며, 실패를 복구하고 중단 지점부터 작업을 재개하는 장기 실행 에이전트(Long-running Agent)가 핵심 화두로 떠올랐다.

장기 실행 에이전트의 기술적 지형

장기 실행 에이전트는 세 가지 차원에서 정의된다. 첫째, 수천 번의 모델 호출을 거치며 수일간 프로세스가 유지되는 실행 구조다. 둘째, 단일 작업을 넘어 정체성을 유지하며 메모리를 축적하는 영속성이다. 셋째, METR(AI 안전성 평가 기관)의 지표에 따르면 프론티어 모델이 50% 신뢰도로 완료 가능한 작업 시간은 2019년 이후 약 7개월마다 두 배로 증가하고 있다. Anthropic의 내부 테스트에서는 Claude Sonnet이 30시간 이상 자율 코딩을 수행하며 11,000줄 규모의 앱을 생성했고, Project Vend(자판기 운영 프로젝트)에서는 에이전트가 한 달간 재고 관리와 가격 설정을 전담했다.

기존 방식과의 비교: 하네스 설계의 변화

예전에는 모델의 추론 능력에만 의존했으나, 이제는 모델을 감싸는 하네스(Harness, 에이전트 실행을 돕는 구조체) 설계가 성패를 가른다. 기존 에이전트는 자기 평가를 과신하여 30% 완성 상태에서도 작업을 완료했다고 보고하는 편향을 보였다. 이를 극복하기 위해 Anthropic과 Cursor(AI 기반 코드 에디터)는 Planner(계획), Generator(생성), Evaluator(평가)의 삼중 구조를 도입했다. 특히 Anthropic은 Brain(모델과 루프), Hands(샌드박스 실행 환경), Session(이벤트 로그)을 물리적으로 분리했다. 이 구조는 컨테이너 장애가 발생해도 세션 로그를 통해 상태를 즉시 복구할 수 있게 한다. 반면, 과거의 단일 세션 방식은 컨테이너가 멈추면 모든 작업 맥락이 사라지는 치명적인 약점을 안고 있었다.

프로덕션 환경의 실제 영향

개발자가 바로 체감하는 변화는 에이전트의 복구 가능성이다. Google의 Gemini Enterprise Agent Platform은 Vertex AI(구글의 기업용 AI 개발 플랫폼)를 통해 장기 실행 에이전트를 SLA(서비스 수준 협약)가 보장되는 정식 제품으로 전환했다. 여기에는 Agent Memory Bank(장기 기억 레이어)와 Agent Sandbox(코드 실행 환경)가 포함되어, 비즈니스 상태와 에이전트의 사고 과정을 연동한다. 이제 기업은 Ralph 루프(Geoffrey Huntley와 Ryan Carson이 대중화한 실무자용 에이전트 패턴)를 직접 구현하는 대신, 플랫폼이 제공하는 세션 관리와 체크포인트 기능을 활용한다. 이는 에이전트가 단순한 챗봇에서 주니어 애널리스트 수준의 리서치와 마이그레이션 업무를 수행하는 자율 시스템으로 진화했음을 의미한다.

장기 실행 에이전트의 핵심은 모델의 지능이 아니라, 에이전트가 주 단위로 정체성을 유지할 수 있도록 돕는 상태 관리와 검증 레이어의 정교함에 있다.

장기 실행 에이전트, 며칠간 자율 작업하는 시스템의 설계

장기 실행 에이전트의 기술적 지형

기존 방식과의 비교: 하네스 설계의 변화

프로덕션 환경의 실제 영향

관련 기사