인프라 붕괴를 가속하는 AI 에이전트, '보이지 않는' 장애의 실체

"t reflect last month"

이 문구는 LLM(대규모 언어 모델)이 의존성 그래프를 기반으로 카오스 가설을 생성할 때 마주하는 치명적인 한계를 지적한다. 최신 서비스 추출이나 라이브러리 변경 사항이 반영되지 않은 그래프를 학습한 모델은 시스템 경계에 대해 확신을 가지고 틀린 답을 내놓는다. 그러나 이러한 정보의 시차는 단순한 오답을 넘어 운영 환경에서의 계획되지 않은 서비스 중단으로 이어진다. 모델이 틀렸다는 사실조차 인지하지 못한 채 내리는 '확신에 찬 오답'은 카오스 엔지니어링 환경에서 가장 위험한 요소다.

주목할 점은 이러한 기술적 한계가 이제 자율 에이전트의 운영 단계로 전이되고 있다는 사실이다. 에이전트가 내리는 조치는 개별 맥락에서는 기술적으로 정확할 수 있으나, 전체 인프라의 상태를 반영하지 못한 불완전한 컨텍스트에 기반한다. 반면 기업의 기존 장애 분석 체계는 에이전트의 자율적 조치를 장애의 시작점으로 분류하는 기준이 없다. 결국 에이전트의 조치가 인프라의 연쇄 붕괴를 촉발함에도 불구하고, 기존의 사후 분석 템플릿으로는 이를 추적할 수 없는 '보이지 않는 장애'가 양산되고 있다. 이제 문제는 모델의 추론 능력이 아니라, 자율 에이전트의 조치와 인프라의 실시간 상태 사이의 괴리를 어떻게 메울 것인가로 옮겨가고 있다.

핵심 변화

현재 79%의 조직이 이미 어떤 형태로든 AI 에이전트를 프로덕션 환경에서 사용 중이며, 96%가 확장을 계획하고 있다. Gartner는 2028년까지 기업용 소프트웨어의 33%에 에이전트 AI가 포함될 것으로 예측했다. 그러나 그 중 40%는 리스크 제어 부족으로 인해 프로젝트가 취소될 것이라고 경고했다. 부실한 리스크 관리 체계가 에이전트 AI 도입의 성패를 가르는 주요 원인이 될 가능성이 크다는 분석이다.

AI Incidents Database(AI 사고 데이터베이스)에 따르면 2024년에서 2025년 사이 보고된 AI 관련 사고는 21% 증가했다. 반면 실제 사고 노출 정도는 보고된 수치보다 훨씬 더 클 것으로 추정된다. 대부분의 조직이 자율 에이전트의 특정 행동을 연쇄 장애의 시작 원인으로 캡처할 수 있는 사고 분류 체계를 갖추고 있지 않기 때문이다. 이는 자율 에이전트가 유발하는 시스템 장애의 실체가 통계에 온전히 반영되지 않고 있음을 시사한다.

시스템의 실시간 스트레스 견딤 정도를 측정하기 위해 SLO(서비스 수준 목표) 소모율과 지연 시간 추세 등을 활용한 회복력 예산(resilience budget) 모델이 제시되었다. 주목할 점은 흡수 용량을 단순히 넘지 말아야 할 정적 임계값이 아니라, 지속적으로 재계산되는 소모성 자원으로 취급하는 접근 방식이다. 해당 모델의 주요 입력 신호로는 SLO 소모율, P99 지연 시간 추세, 종속성 포화 상태 등이 포함된다. 특히 절대적인 지연 시간보다 P99 지연 시간 추세가 더 중요하게 취급되며, 종속성 포화 상태는 실무에서 가장 흔하게 놓치는 신호로 분석된다.

기존과의 차이

기존 카오스 엔지니어링(Chaos Engineering, 시스템의 안정성을 검증하기 위해 의도적으로 장애를 주입하는 방법론)은 인간의 판단을 통해 시스템의 흡수 용량을 확인하는 과정을 거친다. 인간 엔지니어는 대시보드와 에러 예산 소모율, 종속성 안정성을 종합적으로 검토하여 시스템이 현재의 섭동을 견딜 수 있는지 판단하는 휴먼 인 더 루프(Human-in-the-loop) 과정을 수행한다. 반면 자율 복구 에이전트는 SLO(Service Level Objective, 서비스 수준 목표) 소모율 확인이나 블래스트 반경(Blast Radius, 장애 영향 범위) 계산 없이 즉각적으로 행동하여 시스템에 추가적인 스트레스를 가한다.

이러한 즉각적인 대응은 불완전한 컨텍스트를 바탕으로 수행되어 시스템 전체의 연쇄 장애를 유발하는 새로운 실패 모드로 이어진다. 에이전트가 지연 시간 해결을 위해 서비스 클러스터를 재시작하는 조치는 학습 데이터와 좁은 시야 내에서는 기술적으로 올바른 판단일 수 있다. 그러나 다른 서비스가 피크 트래픽을 처리 중이거나 데이터베이스 상태가 불안정한 상황 등 전체 시스템의 맥락을 알지 못한 상태에서 수행된 재시작은 썬더링 허드(Thundering Herd, 대규모 요청이 한꺼번에 몰려 시스템이 마비되는 현상)와 같은 더 치명적인 장애를 일으킨다.

주목할 점은 기업들이 자율 에이전트의 행동을 사고 원인으로 명확히 분류하지 않아 사후 분석 과정에서 에이전트의 역할이 누락되는 구조적 문제가 발생하고 있다는 사실이다. 에이전트가 유발한 사고가 단순한 서비스 재시작이나 연결 풀 포화, 혹은 지연 시간 이벤트로만 기록되어 실제 에이전트의 영향이 분석 결과에 보이지 않게 된다. 이는 기업들이 자율 에이전트의 운용과 카오스 엔지니어링을 서로 다른 영역으로 취급하는 실수에서 기인하며, 결과적으로 두 영역이 분리될 수 없음을 간과한 결과다.

인프라 붕괴를 가속하는 AI 에이전트, '보이지 않는' 장애의 실체

핵심 변화

기존과의 차이

관련 기사