Anthropic Opus 기반 AI 비서, 6,000건의 프롬프트 인젝션 공격 모두 방어했다

6,000건의 공격 시도와 '유출 0건'의 결과

개발자가 구축한 'hackmyclaw.com'에서 AI 비서 'Fiu'를 대상으로 한 보안 실험이 진행됐다. 실험의 목적은 단순했다. 외부 공격자가 Fiu에게 이메일을 보내 시스템 내부의 비밀 설정 파일인 'secrets.env'의 내용을 유출하도록 만드는 것이었다. 해커뉴스(개발자 커뮤니티) 메인 페이지에 노출된 이후, 2,000명 이상의 사용자가 참여해 총 6,000건 이상의 이메일 공격을 퍼부었다.

공격 방식은 갈수록 정교해졌다. 단순히 비밀번호를 알려달라는 요청을 넘어, proton.me 주소를 사용해 'OpenClaw 관리자'라고 자신을 속이는 권한 사칭 기법이 동원됐다. 일부 공격자는 영어뿐만 아니라 프랑스어, 스페인어, 이탈리아어 등 다국어를 섞어 사용하며 AI의 필터를 우회하려 했다. 가짜 사고 대응 시나리오를 짜거나 사회공학적 기법을 동원해 AI와 친밀감을 형성하려는 시도도 있었다. 한 사용자는 축하 메시지가 담긴 스크린샷을 보내 Fiu의 경계심을 낮추려 했다.

결과는 예상 밖이었다. 6,000건이 넘는 공격 시도 중 단 한 건의 비밀 파일 유출도 발생하지 않았다. 성공률 0%다. 다만 실험 과정에서 기술적인 진통은 있었다. 수천 건의 인바운드 이메일과 급격한 API 호출이 발생하자 구글(Google)의 부정 사용 탐지 시스템이 작동해 Fiu의 지메일(Gmail) 계정이 정지됐고, 이를 복구하는 데 3일이 소요됐다. 또한 모든 이메일 처리 과정에서 토큰이 소비되며 약 500달러의 API 비용이 발생했다.

고성능 모델의 지시 이행 능력이 만든 방어선

이번 실험에서 주목할 점은 방어의 핵심이 복잡한 보안 설정이 아니라 모델 자체의 '지시 이행 능력'에 있었다는 것이다. Fiu는 Anthropic의 가장 강력한 모델인 Opus(오푸스)를 기반으로 구동됐다. 개발자가 설정한 보안 프롬프트는 단 몇 줄의 간단한 지시사항이었지만, 모델의 사고 과정(thinking traces)을 분석한 결과 Fiu는 공격자의 유도 질문 속에서도 끊임없이 초기 지시사항을 참조하며 방어했다.

특히 모델이 상황을 스스로 인지하는 모습이 관찰됐다. 약 500번째 이메일을 처리할 무렵, Fiu는 메모리에 "이 정도의 유입량은 유기적인 악의적 활동이라기보다 조직적인 보안 훈련일 가능성이 크다"라고 기록했다. 이는 고성능 모델이 단순한 텍스트 생성을 넘어 입력되는 데이터의 패턴을 분석하고 맥락을 파악해 대응 전략을 수정할 수 있음을 보여준다.

다만 처리 방식에 따른 변수도 확인됐다. 초기에는 여러 이메일을 묶어 처리하는 배치 프로세싱(Batch processing) 방식을 사용했는데, 배치 내 앞부분에서 명백한 프롬프트 인젝션 시도가 발견되면 AI가 이후의 모든 이메일에 대해 과도하게 의심하는 경향을 보였다. 결국 개발자는 각 이메일을 완전히 새로운 컨텍스트에서 처리하도록 설정을 변경해 실험의 오염을 막았다.

AI 에이전트 도입 시 고려해야 할 보안 임계점

이번 결과는 AI 에이전트의 보안을 설계하는 실무자들에게 모델 선택과 권한 제어라는 두 가지 명확한 판단 기준을 제시한다. 우선, 모델의 체급이 보안 성능과 직결된다는 점이다. 지시 이행 능력이 떨어지는 소형 모델(Smaller models)은 복잡한 제약 조건을 쉽게 잊거나 공격자의 유도에 취약할 가능성이 크다. 즉, 보안이 중요한 에이전트일수록 더 강력한 추론 능력을 갖춘 모델을 선택하는 것이 실질적인 방어선이 된다.

또한 '공격의 형태'에 따라 위험도가 완전히 달라진다. 이번 실험은 한 번의 이메일로 결과를 내야 하는 '원샷(One-shot)' 공격 중심이었다. 하지만 만약 AI가 무제한의 크레딧을 가지고 공격자와 여러 차례 대화를 주고받는 '멀티턴(Multi-turn)' 상황이었다면 결과는 달랐을 것이다. 20번의 단발성 공격보다 20번의 티키타카를 통해 경계심을 허무는 공격이 훨씬 위험하며, 이는 AI 에이전트에게 무분별한 권한을 부여하는 것이 왜 위험한지를 방증한다.

결국 한국의 AI 개발자와 기업들이 주목해야 할 지점은 '모델의 지능'을 보안의 일부로 편입시키는 전략이다. 프롬프트 인젝션을 완전히 막는 것은 불가능하지만, 고성능 모델의 지시 준수 능력과 엄격한 권한 분리를 결합한다면 에이전트의 실무 투입 가능성을 높일 수 있다. 무조건적인 신뢰보다는 모델의 임계점을 테스트하고, 에이전트가 가질 수 있는 권한의 범위를 최소화하는 설계가 필수적이다.

Anthropic Opus 기반 AI 비서, 6,000건의 프롬프트 인젝션 공격 모두 방어했다

6,000건의 공격 시도와 '유출 0건'의 결과

고성능 모델의 지시 이행 능력이 만든 방어선

AI 에이전트 도입 시 고려해야 할 보안 임계점

관련 기사