"코드 리뷰조차 거부" — 앤스로픽 Fable의 과한 가드레일

사이버 보안 모델 Mythos의 공개 및 제한 버전인

보안 취약점을 점검하려는 실무자는 이제 기업 전용 계약 없이도 특화 보안 모델의 성능을 일부 확인할 수 있게 됐다. Anthropic가 이번 주 화요일에 사이버 보안 모델 Mythos의 기능을 일부 공개한 제한 버전 Fable을 출시했다. 업계에서 강력한 성능으로 기대를 모았던 사이버 보안 모델 Mythos의 일부 기능을 일반에 공개해 접근성을 높인 결과다.

그동안 Mythos는 극소수 조직만 접근할 수 있는 폐쇄적인 도구로 운용됐다. 지난 4월 Project Glasswing(프로젝트 글래스윙, 앤스로픽의 보안 모델 초기 제공 프로그램)을 통해 일부 기업과 조직에만 제한적으로 제공된 것이 시작이었다. 당시에는 엄격한 기준을 통과한 소수 집단만이 모델의 성능을 검증하고 실무 적용 가능성을 타진할 수 있는 구조였다.

지난주 Anthropic는 Mythos의 접근 권한을 15개국에 걸친 수백 개의 조직으로 확대했다. 지난 4월의 제한적 제공 범위를 대폭 넓혀 더 많은 국가와 기업이 보안 특화 AI를 실무에 도입하도록 경로를 열었다. 공개 버전인 Fable의 출시와 더불어 보안 모델의 보급 범위를 빠르게 확장하며 실제 운용 환경에서의 적용 사례를 늘리는 단계에 진입했다.

기술이 실제로 작동하는 방식

실무자가 AI에게 코드 리뷰를 요청하거나 보안 취약점 점검을 맡겼을 때 갑자기 답변의 성격이 변했다면 내부에서 어떤 기제가 작동한 것일까. Fable은 가드레일에 걸리는 순간 Claude Opus 4.8 모델로 대체되어 작동하는 폴백(fallback) 구조를 가지고 있다. 전문가들은 이 시스템이 키워드 기반으로 작동한다고 분석한다. 사이버 보안이라는 특정 어휘 영역에 포함된 요청이 입력되면, 시스템이 이를 감지해 가드레일을 작동시키고 모델을 전환하는 방식이다. 보안 특화 모델을 사용하려 해도 특정 단어의 사용 여부에 따라 일반 모델로 전환되며, 이는 가드레일의 정교함이 실무 생산성에 직접적인 영향을 미치는 지점이 된다.

모델 내부의 제약을 해결하기 위해 전문가들은 별도의 검증 프로그램을 통해 권한을 획득하는 경로를 택한다. Anthropic은 사이버 보안 전문가를 위해 신청 기반의 Cyber Verification Program(사이버 검증 프로그램)을 운영하고 있다. 전문가가 프로그램에 신청해 승인 절차를 거치면, 사이버 보안 작업을 수행할 때 Claude가 적용하는 제한 사항을 덜 받는 권한을 얻는다. OpenAI 역시 Trusted Access for Cyber(사이버 보안 신뢰 액세스)라는 유사한 프로그램을 운영하며 승인된 사용자에게 차별화된 접근 권한을 제공한다. 모델 자체에 심어진 가드레일 외에 사용자 신분을 확인하는 외부 검증 단계를 추가해, 전문 작업자의 실무 환경에 맞춘 제어 수준을 적용하고 있다.

확인해야 할 핵심 지점

보안 연구원이 X에 올린 글에는 코드 리뷰를 요청했을 뿐인데 가드레일이 작동했다는 내용이 담겼다. Fable은 사이버 보안과 직접적인 관련이 없더라도 조금이라도 연관될 가능성이 있는 요청이라면 모두 거부하는 특성을 보인다. 블로그 게시물을 읽어달라는 무해한 작업조차 사이버 보안 관련 요청으로 간주되어 차단 대상이 된다. 보안 전문가가 일상적으로 수행하는 코드 분석이나 자료 조사가 모델의 가드레일에 걸려 중단되는 사례가 반복되고 있다.

소프트웨어 침해나 악성코드 개발 가능성을 막기 위해 이 장치가 설정되었다. 이는 Anthropic 내부에서 오랫동안 지속되어 온 우려 사항으로, 모델이 악성코드를 생성하거나 소프트웨어의 취약점을 공격하는 도구로 쓰이는 것을 제한하려는 목적이다. 생물학 무기 제조 위험을 방지하려는 제한 조치 역시 이와 유사한 우려에서 비롯되었다. 위험 요소를 원천적으로 차단하려는 보안 정책이 모델의 응답 범위를 극도로 좁혀놓은 상태다.

단순한 작업조차 거부하는 엄격한 가드레일로 인해 실무자들의 불편이 제기되고 있다. 무해한 요청과 실제 공격 의도가 있는 요청을 구분하지 못하는 정교함의 부족이 문제로 지적된다. 보안 특화 모델이 실질적인 도움을 주려면 가드레일의 작동 범위와 실무 생산성 사이의 균형점이 필요하다. 보안 모델의 추론 성능만큼이나 가드레일의 정교함이 실무 도입 시 생산성을 결정짓는 핵심 판단 기준이 되고 있다.

실무자가 AI에 코드 리뷰나 보안 취약점 점검을 맡기는 순간, 앤스로픽의 Fable은 사이버 보안과 연관된 요청을 가드레일로 즉각 차단한다. 가드레일 작동 시 Claude Opus 4.8 모델로 폴백되는 구조는 모델의 안전성과 실무 활용성 사이의 간극을 보여준다.

결국 보안 특화 모델 도입의 핵심은 가드레일의 정교함이 실무 생산성에 미치는 영향력을 판단하는 일이다. 안전장치가 실무자의 작업 흐름을 끊는 제약이 되는 순간, 특화 모델의 성능 수치는 의미를 잃는다.

"코드 리뷰조차 거부" — 앤스로픽 Fable의 과한 가드레일

사이버 보안 모델 Mythos의 공개 및 제한 버전인

기술이 실제로 작동하는 방식

확인해야 할 핵심 지점

관련 기사