Claude Code 분석 결과, 사람은 계획 결정에 집중한다

AI에게 복잡한 코딩을 맡기면 결과물을 일일이 확인하고 수정하는 일이 더 많아지곤 한다. 실제 역할 분담이 어떻게 이뤄지는지 2025년 10월부터 2026년 4월까지 23.5만 명의 사용자 데이터를 분석했다. 약 40만 세션을 살펴본 결과 사람은 계획 결정의 약 70%를 담당하고, Claude Code(앤스로픽의 코딩 에이전트)는 실행의 약 80%를 처리했다.

OpenAI는 Linear(선형적인 작업 관리 도구) 보드를 중심으로 하는 Symphony spec(심포니 사양)을 제안했다. 작업 분배와 모니터링을 전담하는 관리자 AI가 전체 공정을 조율하는 방식이다. 이 단계에서는 결과물을 검증하는 독립 프로세스가 중요하다. 구현자와 리뷰어를 나누고, 테스트 실행자와 QA(품질 보증) 담당자를 분리하며, 보안 검사까지 별도로 진행해 오류를 걸러내는 구조를 만든다.

에이전트 자율성을 결정하는 두 축, 에이전시와 오케스트레이션

에이전트의 역량은 agency(에이전시, 단일 수행 능력)와 orchestration(오케스트레이션, 조율 능력)이라는 두 축으로 나뉜다. agency는 에이전트 하나가 제안부터 제한된 작업 수행, 최종 목표 달성까지 얼마나 스스로 처리하는지를 본다. orchestration은 단순한 작업 흐름부터 복잡한 작업 트리, 백로그나 이슈 트래커, 스케줄 기반의 지속적인 업무까지 얼마나 정교하게 조율하는지를 측정한다.

높은 자율성을 안전하게 적용하려면 실행 전 구체적인 계약서가 필요하다. 작업의 위험도와 되돌릴 수 있는 정도에 맞춰 자율성 수준을 조절하는 calibrated autonomy(캘리브레이티드 오토노미, 조정된 자율성)를 적용해야 한다. 계약에는 최종적으로 달성하려는 결과인 목표, 작업할 도메인과 허용된 기법인 범위, 그리고 목적에 포함되지 않는 비목표를 명확히 명시하여 오작동을 방지한다.

에이전트가 외부 세계와 상호작용하는 방식인 도구와 권한, 측정 가능한 변수로 정의한 정지 조건도 필수다. 작업 완료를 독립적으로 확인할 수 있도록 테스트, 스크린샷, 로그, 데이터베이스 레코드 같은 증거를 요구해야 한다. 또한 어떤 상황에서 누가 개입하고 누가 에이전트를 실행하는지 정하는 에스컬레이션 경로를 정의하고, 투입될 시간과 노력, 토큰 한도 같은 예산을 설정해야 통제권을 확보할 수 있다.

프롬프트 작성을 넘어 운영 설계로 전환해야 하는 이유

AI가 짠 코드를 사람이 일일이 검토하고 수정하는 시간이 늘어나면 실질적인 비용은 줄어들지 않는다. 프롬프트를 정교하게 짜는 노력보다 결과물을 검증하는 노동력이 더 많이 들어가는 지점이다.

이에 따라 엔지니어링의 핵심 과제는 프롬프트 작성이 아니라 운영 설계로 바뀌고 있다. 소프트웨어 팩토리(코드 생산 자동화 공정)나 루프(반복 검증 회로), 샌드박스(외부와 격리된 테스트 환경) 같은 장치를 배치하는 작업이 핵심이다. 서브에이전트(특정 임무만 수행하는 보조 AI)를 활용하거나 에이전트가 다른 에이전트의 작업을 승인하는 방식까지 설계 범위에 포함된다.

자율성 모델은 Level 0부터 Level 5까지 6단계로 나뉜다. Level 0과 Level 1은 AI가 제안만 하고 사람이 모든 결정을 내리는 보조 단계다. Level 2와 Level 3은 구체적인 목표나 제한된 범위의 작업을 AI에게 완전히 맡기는 위임 단계로 진화한다. Level 4와 Level 5는 매니저 에이전트가 트리거에 따라 깨어나 작업을 나누어 주는 공장 형태로 동작하는 오케스트레이션 단계다.

AI가 짠 코드를 일일이 검토하고 수정하는 시간은 보이지 않는 인건비와 같다. 이제는 프롬프트를 정교하게 쓰는 기술보다 AI의 자율성 수준과 검증 방식을 정하는 운영 설계가 더 중요하다. 개별 수행 능력과 다수 조율 능력이라는 두 축의 6단계 모델을 통해 내 업무의 적정 지점을 찾아야 한다.

작업의 위험도가 높고 복구가 어려울수록 자율성 레벨을 낮추고 더 엄격한 증거를 요구하는 원칙을 세운다. AI 에이전트의 성과는 명령어의 화려함이 아니라 통제권의 정교한 설계에서 결정된다.