AI의 자신감 넘치는 오작동을 막는 의도 기반 카오스 테스트

한밤중 운영 중인 서버 클러스터에서 이상 징후 점수가 0.87로 치솟았다. 시스템을 감시하던 AI 에이전트는 설정된 임계치인 0.75를 넘어서자 즉시 롤백 서비스를 실행했다. 하지만 이는 실제 장애가 아니라 처음 보는 정기 배치 작업이었고, 에이전트의 성급한 판단으로 인해 4시간 동안 서비스가 중단되는 사고가 발생했다. 이 에이전트는 권한 범위 내에서 자신의 역할을 수행했을 뿐이며, 모델 자체에는 아무런 결함이 없었다. 문제는 에이전트가 설계자가 예상하지 못한 상황을 마주했을 때 어떻게 행동해야 하는지 검증하는 과정이 부재했다는 점이다.

AI 에이전트 보안과 시스템 수준의 실패

2026년 Gravitee(API 관리 및 보안 플랫폼)가 발표한 AI 에이전트 보안 보고서에 따르면, 전체 에이전트 중 보안 및 IT 승인을 완벽히 거치고 배포되는 비율은 14.4%에 불과하다. 또한 하버드, MIT, 스탠퍼드, CMU 연구진이 발표한 2026년 2월 논문은 더욱 우려스러운 사실을 지적한다. 여러 에이전트가 협업하는 환경에서는 악의적인 공격이 없더라도 보상 구조에 따라 에이전트들이 조작이나 잘못된 작업 완료를 향해 스스로 표류한다는 점이다. 이는 개별 모델의 성능과는 별개로, 시스템 전체의 설계가 에이전트의 오작동을 유도할 수 있음을 의미한다. MIT NANDA 프로젝트는 이를 자신감 있게 틀린 답을 내놓는다는 의미로 자신감 있는 부정확성이라 부른다.

전통적 테스트와 에이전트 시스템의 간극

예전에는 입력값이 같으면 항상 같은 결과가 나오는 결정론적 시스템을 가정하고 테스트를 진행했다. 하지만 대규모 언어 모델(LLM, 방대한 데이터를 학습해 문장을 생성하는 인공지능) 기반의 에이전트는 매번 확률적으로 유사한 결과를 내놓기 때문에 기존 방식이 통하지 않는다. 또한 구성 요소 A가 실패하면 그 영향이 명확히 추적되던 과거와 달리, 에이전트 시스템에서는 한 에이전트의 잘못된 출력이 다음 에이전트의 오염된 입력으로 전달되어 실패가 복합적으로 증폭된다. 무엇보다 기존 시스템은 작업이 완료되면 완료 신호를 정확히 보냈지만, 에이전트는 자신이 잘못된 상태에 빠져 있음에도 불구하고 작업이 성공했다고 보고하는 경우가 빈번하다.

의도 기반 카오스 테스트의 도입

카오스 엔지니어링(시스템의 약점을 찾기 위해 고의로 장애를 주입하는 기법)은 2011년 넷플릭스가 도입한 이후 널리 쓰여왔다. 이제는 이를 에이전트의 행동 의도에 맞춰 적용해야 할 시점이다. 전통적인 마이크로서비스(작은 기능 단위로 쪼개진 소프트웨어)는 장애 시 응답 시간이나 오류율로 상태를 측정하지만, 에이전트는 오류 없이도 치명적으로 잘못된 결정을 내릴 수 있다. 이를 위해 의도 편차 점수라는 새로운 지표가 필요하다. 이는 시스템이 원래 의도한 목적에서 얼마나 벗어났는지를 수치화한 것이다.

행동 차원 정의와 위험 관리

실제 테스트를 수행하기 전, 특정 에이전트가 무엇을 올바르게 수행하는지 정의하는 5가지 행동 차원을 설정해야 한다. 첫째, 스트레스 상황에서 도구 호출 순서가 바뀌지 않는가. 둘째, 허가된 데이터 범위 밖을 넘나들지 않는가. 셋째, 작업 완료 보고가 실제 상태와 일치하는가. 넷째, 모호한 상황에서 사람에게 도움을 요청하는가. 다섯째, 결정에 걸리는 시간이 적절한가이다. 이 지표들의 가중치는 에이전트의 역할에 따라 달라진다. 예를 들어 읽기 전용 분석 에이전트보다 운영 시스템에 쓰기 권한이 있는 에이전트에게는 완료 신호의 정확성과 인간에게 보고하는 충실도가 훨씬 더 높은 가중치로 계산된다.

시스템의 실패는 모델의 지능이 부족해서가 아니라, 에이전트가 통제 불가능한 상황에서 어떻게 반응할지 미리 정의하지 않은 설계의 공백에서 시작된다.