모델 상향평준화 시대, 스타트업의 진짜 해자는 '운영 체계'와 'Eval'

AI-네이티브 회사는 운영 모델의 변화로 학습과 진화 속도를 높인다

창업자가 매일 반복하는 고객 티켓 처리와 대시보드 갱신 업무는 제품 개선 시간을 앗아간다. AI-네이티브 회사는 에이전트가 이런 반복 작업을 수행하고 사람은 방향, 취향, 관계, 검증, 책임에만 집중하는 운영 모델을 택한다. 적은 인원으로 조율 비용을 줄여 제품 개선 속도를 높이는 방식이다.

모델 성능이 상향평준화된 환경에서 해자는 모델 자체가 아니라 운영 규율(discipline)에서 나온다. 매주 업무를 매핑하고 컨텍스트를 쌓으며 Eval(평가 체계)을 적용해 루프를 돌리는 일관성이 핵심이다.

업무의 자율성 레벨을 L1부터 L4까지 4단계로 분류하여 관리한다. L1은 전략적 결정, 최종 채용, 큰 환불, 법적 서명, 이사회 커뮤니케이션 등 사람 전용 영역이다. L2는 투자자 업데이트 초안, 계약 레드라인, 가격 페이지 재작성, 지원 매크로처럼 AI가 준비하고 사람이 승인한다.

L3는 인바운드 분류, 미팅 노트 라우팅, 리드 보강, 테스트 생성처럼 AI가 실행하고 사람이 감독하는 단계다. L4는 경쟁사 모니터링, 야간 리포트 생성, 알려진 벤더 인보이스 추출, 단순 이상 탐지 등 명확한 한계 내에서 AI가 자율적으로 수행한다.

컨텍스트 시스템과 도구 최적화로 운영 기억을 구축한다

AI에게 매번 회사 상황과 고객 이름, 프로젝트 맥락을 다시 설명하는 것은 생산성 도구가 또 다른 반복 업무가 되는 일이다. AI-네이티브 스타트업은 이를 해결하기 위해 회사의 모든 지식을 에이전트가 읽을 수 있는 컨텍스트 시스템(Context System)으로 구축한다. 모델은 교체 가능한 부품이지만, 이렇게 쌓인 컨텍스트는 회사만의 운영 기억(Operating Memory)이 된다. 공유 Git 저장소를 활용해 버전 관리와 접근 권한을 제어하며 지식의 최신성을 유지한다. 특히 통화 녹취 같은 원본(Raw) 데이터와 거기서 도출한 결정, 고객 이의, 후속 담당자, 갱신 위험 같은 정제본(Distilled) 데이터를 엄격히 분리하여 에이전트가 정제본 데이터만 조회하게 함으로써 정보의 노이즈를 줄인다.

워크플로 성격에 따라 스크립트, AI 보조 사람, 워크플로, 에이전트를 혼합해 최적의 도구를 선택한다. 결과가 정해진 결정론적 단계에는 단순 스크립트를 쓰고, 최종 판단이 필요한 출력물은 AI 보조 사람이 직접 검토한다. 단계가 사전에 정의된 경우에는 LangGraph, Temporal, Inngest, Prefect 같은 엔진을 도입해 순서 제어와 재시도, 관측성을 관리하며 정해진 경로를 수행하게 만든다. 반면 경로를 미리 정할 수 없는 가변적인 영역에만 에이전트를 투입해 유연성을 확보한다.

스킬 인코딩과 하네스 체계로 실행 안정성을 확보한다

구축된 컨텍스트와 도구 체계 위에서, 반복되는 작업 패턴을 발견하면 이를 재사용 가능한 스킬(Skill, 반복 작업을 위한 지침과 예시의 집합)로 인코딩한다. 스킬은 작업 범위, 입력값, 로드할 컨텍스트, 절차, 출력 형식, 예시, 에스컬레이션 규칙, 소유자, 실행 로그를 명확히 정의한다. 여기에 사람이 실제 예시에서 좋은 출력을 표시한 라벨링 정답 등 Eval(평가) 레이어를 누적해 품질을 지속적으로 높인다.

에이전트의 오작동으로 인한 비용 낭비나 데이터 훼손 위험은 하네스(Harness, 6단계 안전 레이어)로 막는다. 하네스는 토큰 사용 전 권한을 확인하는 Preflight부터 Plan, Approve, Execute, Verify, Log 단계로 이어진다. Approve 단계에서는 사람이나 판정 모델이 게이트 역할을 수행해 잘못된 계획을 실행 전에 차단하며, Verify 단계에서는 테스트와 스키마, 루브릭, 예시를 통해 출력물을 검증한다.

안전 가드레일은 프롬프트가 아니라 코드와 설정 수준에서 강제한다. 런타임에 비용 상한과 재시도 횟수를 제한하고, 승인 없는 프로덕션 쓰기를 금지한다. 마지막 Log 단계에서 실행 내용을 기록해 다음 반복 작업의 정답 데이터로 활용한다. 단순한 프롬프트 수정이 아니라 이러한 평가 체계와 안전 레이어의 구축 여부가 실제 성능 차이를 만든다.

Anthropic의 MCP를 통해 컨텍스트 사용량을 98.7% 절감한 사례는 이러한 효율화의 실체를 보여준다. 결국 AI 도입의 성패는 단순한 프롬프트 수정이 아니라 정교한 평가 체계인 Eval을 구축했는지에 달려 있다.

모델 상향평준화 시대, 스타트업의 진짜 해자는 '운영 체계'와 'Eval'

AI-네이티브 회사는 운영 모델의 변화로 학습과 진화 속도를 높인다

컨텍스트 시스템과 도구 최적화로 운영 기억을 구축한다

스킬 인코딩과 하네스 체계로 실행 안정성을 확보한다

관련 기사