수주 걸리던 보안 퍼징 랩을 단 하루 만에 구축한 Patch the Planet

19개 핵심 프로젝트와 GPT-5.5-Cyber의 결합

Python이나 Go 같은 오픈소스 라이브러리를 사용하다 보면 보안 업데이트 공지를 보고 패치를 진행하는 일이 잦다. 개발자에게는 익숙한 일상이지만, 정작 이를 관리하는 유지보수자들은 쏟아지는 취약점 보고서를 처리하느라 시간과 자원 부족에 시달린다. OpenAI는 이러한 부담을 줄이기 위해 GPT-5.5-Cyber와 전문가의 검수를 결합해 오픈소스 취약점을 찾아내고 패치까지 지원하는 Patch the Planet 프로젝트를 추진한다.

Patch the Planet은 보안 강화 활동을 뜻하는 Daybreak 이니셔티브의 일환으로, 보안 연구 전문 기업인 Trail of Bits와 함께 구축했다. Trail of Bits는 초기 집중 분석을 위해 조직 전체의 보안 연구 인력을 투입했으며, 취약점 분류와 공개 조율을 위해 HackerOne과 Calif가 협력사로 참여한다. 이들은 보안 엔지니어가 발견 사항을 먼저 검토한 뒤 유지보수자에게 전달하는 워크플로우를 설계했다. AI가 생성한 대량의 보고서가 유지보수자에게 또 다른 업무 부담이 되는 상황을 방지하기 위함이다.

분석 대상은 cURL, NATS Server, pyca/cryptography, Sigstore, aiohttp, Go project, freenginx, Python, python.org를 포함한 총 19개 핵심 프로젝트다. 이들은 네트워크 통신, 암호화, 소프트웨어 공급망, 언어 인프라 등 전 세계 소프트웨어 생태계의 기초가 되는 필수 도구들이다. 각 프로젝트의 유지보수자와 사전 협의해 취약점 검증, 패치 개발, CI/CD(지속적 통합 및 배포) 개선 등 지원 범위를 결정한다. 인프라 수준의 보안이 강화되면 이를 사용하는 수많은 하위 제품과 서비스의 보안 취약점도 함께 해결된다.

Trail of Bits의 보안 엔지니어들은 GPT-5.5-Cyber와 Codex Security(보안 특화 모델)를 활용해 19개 프로젝트에 대한 전담 분석을 수행했다. 현재까지 수백 개의 보안 이슈를 식별했으며, 그중 수십 개의 패치를 실제 코드베이스에 병합 완료했다. 나머지 이슈들은 조율된 공개 절차를 밟으며 순차적으로 반영될 예정이다. AI의 탐색 능력과 인간 전문가의 검증을 결합해 실제 패치 적용까지의 주기를 단축했다.

퍼징 랩 구축 '수주 → 1일'로 단축한 AI 워크플로우

보안 취약점을 찾는 과정은 겉으로는 자동화 도구의 작동처럼 보이지만, 실제로는 숙련된 엔지니어가 수주 동안 인프라를 설계하고 코드를 짜는 막대한 인건비가 투입되는 작업이다. 이 비용을 줄이는 핵심은 반복적인 환경 구축 시간을 압축하는 데 있다.

Trail of Bits 엔지니어들은 GPT-5.5-Cyber와 Codex Security를 투입해 퍼징 랩(Fuzzing Lab, 무작위 데이터를 입력해 오류를 찾는 테스트 환경) 구축 시간을 기존 수주에서 1일 미만으로 단축했다. 엔지니어가 목표를 설정하고 프롬프트를 정교화하면, 시스템이 `Codex /goal` 실행을 반복하며 수십 개의 진입점과 플랫폼, 새로운 테스트 시드를 생성했다. 특히 커버리지 피드백(코드의 실행 경로를 추적해 미탐색 영역을 찾는 방식)을 통해 엣지 케이스를 확장하고 유효하지 않은 후보를 걸러내는 과정을 자동화했다.

동일한 프로토콜의 서로 다른 구현체를 비교해 버그를 찾는 차분 테스트(Differential Testing) 기간 역시 수개월에서 수일 단위로 줄였다. 기존에는 각 구현체를 공통 테스트 하네스(테스트 대상 코드를 실행하기 위한 연결 장치)에 연결하는 맞춤형 심(shim)과 글루(glue) 코드를 직접 작성해야 했으나, Codex가 이 연결 코드를 생성하고 반복 수정함으로써 워크플로우를 빠르게 완성했다.

과거의 CVE(공개된 보안 취약점) 데이터를 활용한 변종 분석 파이프라인도 구축했다. 이 시스템은 과거 취약점 패턴을 추출해 대상 코드베이스에서 유사한 결함을 검색하고, 판단 에이전트가 이를 검증하는 순서로 동작한다. 결과물의 중복을 제거하고 오탐을 필터링한 뒤 가장 강력한 증거만 보안 엔지니어에게 전달해 수동 확인을 거치게 한다. 이러한 단계적 필터링은 AI가 생성하는 대량의 오탐이 유지보수자에게 전달되어 발생하는 업무 부담을 막는 기준이 된다.

오탐 필터링을 위한 '인간 전문가'의 개입

AI가 취약점을 찾는 속도는 빨라졌지만 이를 처리하는 유지보수자의 가용 시간은 변하지 않았다. AI가 생성한 오탐(실제로는 문제가 없으나 오류로 판정된 결과물)은 유지보수자에게 또 다른 업무 부담이 된다. Patch the Planet은 AI의 발견 능력을 활용하되 그 결과가 유지보수자에게 직접 전달되기 전 전문가가 먼저 거르는 구조를 택했다.

Trail of Bits 보안 엔지니어가 모든 발견 사항을 수동으로 검수한다. 엔지니어는 AI가 제시한 증거를 실제로 재현하고 프로젝트 문서와 위협 모델(시스템의 잠재적 보안 위협을 식별하고 분석한 문서)을 대조해 실제 취약점인지 확인한다. 이 과정에서 중복된 보고서를 제거하고 보안 심각도를 다시 평가해 우선순위를 정한다. AI가 쏟아내는 방대한 후보군 중 실질적인 위협만 남겨 유지보수자의 백로그 부담을 줄인다.

검증이 끝난 취약점은 패치 개발 단계로 이어진다. 보안 엔지니어는 유지보수자의 선호 방식에 맞춰 패치를 직접 개발하고 제출한다. 최종적으로 어떤 패치를 적용할지, 취약점을 어떻게 공개할지는 유지보수자가 결정하며 통제권을 유지한다. AI가 문제를 지적하는 수준을 넘어 전문가의 검수를 거친 해결책까지 제공함으로써 실무적인 수정 비용을 낮추고 패치 병합 속도를 높였다.

참여 프로젝트에는 실질적인 도구 지원이 제공된다. 모든 참여 프로젝트는 ChatGPT Pro를 사용할 수 있으며 Codex Security에 조건부로 접근할 수 있다. 또한 핵심 오픈소스 개발과 유지보수 자동화, 릴리스 워크플로우 구축에 필요한 API 크레딧을 지원받는다. 이는 AI 도구의 도입 비용을 없애고 보안 강화 활동에만 집중할 수 있는 환경을 만드는 장치다.

오픈소스 보안 표준 수립과 향후 계획

이번 프로젝트는 단순히 취약점을 찾아 제보하는 단계를 넘어, 패치 개발과 CI/CD 개선까지 지원하는 종단 간(End-to-End) 보안 지원 체계를 구축했다. 이는 AI의 탐색 능력과 전문가의 검증 체계를 결합해 실제 보안 유지보수 프로세스를 효율화한 사례다.

향후 개별 취약점 발견 사례와 구체적인 연구 방법, 검증 워크플로우를 상세히 담은 기술 보고서를 발행할 계획이다. AI를 활용한 보안 강화 사례를 표준화하여 다른 개발자들이 실제 환경에서 적용할 수 있는 기준을 제공하고, 발견된 취약점의 메커니즘과 대응 방안을 투명하게 공유하여 오픈소스 생태계 전반의 방어력을 높이는 데 집중한다.

본문에서 다룬 전문가 필터링 워크플로우와 오탐 제거 기준을 활용해 현재 운영 중인 오픈소스 라이브러리의 보안 패치 프로세스를 검토하는 것이 가장 현실적인 적용 방법이다.