오픈소스 프로젝트 관리자들의 메일함에는 AI가 대충 훑고 보낸 가짜 버그 리포트가 쌓이곤 한다. 겉보기에는 그럴싸하지만 실제로 실행해 보면 아무 문제 없는 이런 리포트들은 관리자들에게 큰 피로감을 준다. AI가 문제를 찾는 비용은 거의 제로에 가깝지만, 사람이 이를 검증하고 답변하는 데는 많은 시간과 비용이 들기 때문이다.

Mozilla(웹 브라우저 파이어폭스 개발사)는 최근 Claude Mythos Preview(Anthropic의 최신 미리보기 모델)와 여러 AI 모델을 동원해 파이어폭스의 잠재적 보안 버그를 찾아내고 수정했다. 이 과정에서 Claude Opus 4.6(Anthropic의 고성능 언어 모델) 같은 모델들이 투입되었으며, 단순한 코드 분석을 넘어 실제 취약점을 증명하는 단계까지 나아갔다. 특히 이번 작업의 핵심은 에이전틱 하네스(AI가 직접 가설을 세우고 테스트 코드를 실행해 버그를 검증하는 도구)를 구축해 AI가 내놓는 수많은 신호 중에서 진짜 버그만 걸러낸 점이다.

에이전틱 하네스로 바뀐 버그 탐색 방식

예전에는 AI에게 코드를 보여주고 여기에 취약점이 있는지 묻는 정적 분석 방식이 주를 이뤘다. GPT-4나 Sonnet 3.5(Anthropic의 효율성 중심 모델)를 사용해 위험한 코드를 분석했지만, 실제로 작동하지 않는 가짜 버그를 너무 많이 찾아내어 실무에 적용하기 어려웠다. 비유하자면 설계도만 보고 여기쯤에 균열이 있을 것 같다고 추측하는 것과 같다. 추측은 많지만 실제로 망치로 두드려 확인하는 과정이 없으니 신뢰도가 낮을 수밖에 없었다.

이제는 에이전틱 하네스를 통해 AI가 직접 망치를 들고 벽을 두드린다. 이 시스템은 AI가 특정 코드에서 버그가 있을 것이라는 가설을 세우면, 이를 증명할 수 있는 재현 테스트 케이스를 직접 작성하고 실행한다. 쉽게 말하면 AI가 스스로 해커가 되어 공격 코드를 짜보고, 실제로 브라우저가 뚫리는지 확인한 뒤에만 보고서를 올리는 방식이다. 이 과정에서 AI는 파이어폭스의 소스 코드를 수정하며 샌드박스(프로그램을 외부와 격리해 실행하는 가상 공간) 내부에서 실행될 수 있는 코드를 작성해 취약점을 찾아냈다.

샌드박스 탈출과 자동화 파이프라인의 결과

개발자가 바로 체감하는 변화는 샌드박스 탈출(브라우저의 격리된 공간을 뚫고 시스템 권한을 얻는 공격) 같은 고난도 버그를 효율적으로 잡게 된 점이다. 이런 버그는 Fuzzing(무작위 데이터를 입력해 프로그램의 오류를 찾는 테스트 기법)으로는 찾기 매우 어렵기로 유명하다. 하지만 AI는 복잡한 다중 프로세스 엔진 코드를 추론하며 정교한 공격 경로를 찾아냈다. 또한 과거에 Prototype Pollution(자바스크립트 객체의 기본 속성을 오염시켜 동작을 바꾸는 공격 방식)을 막기 위해 도입한 설계 변경이 실제로 AI의 공격 시도를 얼마나 잘 막아내는지 확인하며 기존 보안 강화 작업의 효용성을 입증하기도 했다.

단순히 버그를 찾는 것을 넘어 이를 실제 수정으로 연결하는 파이프라인(작업 흐름 자동화 체계) 구축이 병행되었다. AI가 찾은 버그를 기존에 알려진 문제와 대조해 중복을 제거하고, 우선순위를 정해 담당 엔지니어에게 배분하며, 최종적으로 패치를 적용하는 전 과정이 시스템화되었다. Mozilla는 이 파이프라인을 먼저 구축해 두었기에 모델이 업데이트될 때마다 모델만 교체하는 방식으로 보안 수준을 빠르게 높일 수 있었다. 결과적으로 AI 모델의 성능 향상이 전체 보안 파이프라인의 효율성 상승으로 직결되는 구조를 만든 것이다.

이제 보안의 승패는 모델의 지능 그 자체보다, AI가 스스로 가설을 세우고 검증하게 만드는 자동화된 실험실의 설계 능력에서 갈린다.