CrabTrap, LLM 판별 프록시로 AI 에이전트 오작동 실시간 차단

개발자가 배포한 AI 에이전트가 갑자기 관리자 권한의 API를 호출하기 시작한다. 로그에는 알 수 없는 요청들이 빠르게 쌓이고 데이터 유출의 징후가 포착된다. 하지만 현재의 보안 설정으로는 이 유동적인 요청을 실시간으로 끊어낼 방법이 없다.

CrabTrap의 LLM 기반 요청 필터링 구조

CrabTrap(AI 에이전트의 요청을 감시하고 제어하는 보안 프록시)이 공개됐다. 이 도구는 HTTP 프록시(클라이언트와 서버 사이에서 데이터를 중계하는 서버) 형태로 작동한다. 핵심은 LLM-as-a-judge(거대언어모델을 심판으로 사용하여 결과의 적절성을 판단하는 방식) 기술의 도입이다.

설치와 실행은 30초 내에 완료된다. CrabTrap은 들어오는 모든 요청을 가로채어 승인하거나 차단한다. 판단 근거는 두 가지로 나뉜다. 미리 설정한 정적 규칙(특정 단어나 경로를 차단하는 고정된 규칙)과 LLM의 실시간 판단이다.

사용자는 터미널에서 설정 명령어를 복사해 즉시 실행할 수 있다. 로그 시스템은 각 결정이 정적 규칙에 의한 것인지 아니면 LLM의 판단에 의한 것인지 명확히 기록한다. 사용자는 실시간으로 규칙을 수정하거나 추가하여 인터셉트 범위를 조정한다.

정적 방화벽에서 의미론적 보안으로의 전환

기존의 보안 체계는 정해진 패턴만을 막는 방식이었다. WAF(웹 애플리케이션 방화벽) 같은 도구는 이미 알려진 공격 패턴을 차단하는 데 집중한다. 하지만 AI 에이전트는 매번 다른 문장과 경로로 요청을 보낸다. 정적 규칙만으로는 에이전트의 의도를 파악해 막는 것이 불가능하다.

CrabTrap은 보안의 기준을 패턴에서 의미로 옮겼다. LLM이 요청의 맥락을 읽고 이것이 위험한 행동인지 판단한다. 이는 단순한 필터링이 아니라 실시간 거버넌스(기업의 의사결정 체계를 관리하는 시스템)의 구현이다.

기업 입장에서 이는 AI 에이전트 도입의 가장 큰 진입장벽인 통제 불능 리스크를 해결하는 포석이다. 보안 사고가 터진 후 로그를 분석하는 사후 대응에서 사고가 나기 전 요청을 쳐내는 사전 차단으로 지형이 바뀐다.

최근 AI 보안 시장의 투자 흐름은 모델 자체의 취약점을 찾는 것에서 런타임(프로그램이 실행되고 있는 환경) 보안으로 이동하고 있다. 에이전트가 외부 툴을 사용하고 API를 호출하는 빈도가 늘어날수록 이러한 중간 제어 계층의 가치는 높아진다. 이는 향후 AI 보안 스타트업들이 클라우드 서비스 제공사로 흡수되는 M&A(기업 인수 합병)의 핵심 동인이 될 가능성이 크다.

보안의 주도권이 고정된 규칙에서 유연한 판단력으로 넘어갔다. 이제 기업은 에이전트에게 권한을 부여하는 동시에 실시간으로 그 권한의 적절성을 심판하는 체계를 갖춰야 한다.

AI 보안의 승부처는 이제 견고한 벽을 쌓는 것이 아니라 맥락을 읽는 필터를 세우는 일이다.

CrabTrap, LLM 판별 프록시로 AI 에이전트 오작동 실시간 차단

CrabTrap의 LLM 기반 요청 필터링 구조

정적 방화벽에서 의미론적 보안으로의 전환

관련 기사