OpenAI가 이번 주 Codex(코딩 작업을 자동화하는 AI 에이전트)를 안전하게 운영하는 내부 통제 체계를 공개했다. 기술적 경계 설정과 텔레메트리(시스템 상태를 원격으로 측정하는 기술)를 통해 에이전트의 자율성과 보안 사이의 접점을 정의했다.
Codex의 기술적 경계와 통제 메커니즘
개발자가 터미널에 명령어를 입력하는 대신 AI가 저장소를 검토하고 코드를 실행한다. OpenAI는 이를 위해 샌드박스(외부와 격리된 가상 실행 환경)를 구축했다. 샌드박스는 Codex가 파일을 쓸 수 있는 위치와 네트워크 접속 가능 여부, 보호해야 할 경로를 기술적으로 정의한다. 승인 정책은 Codex가 샌드박스 외부에서 작업을 수행해야 할 때 사용자에게 확인을 요청하는 기준이 된다.
Codex는 네트워크 정책을 통해 허용된 목적지만 접속하며 생소한 도메인은 승인을 거친다. 인증은 OS 키링(암호화된 비밀번호 저장소)에 CLI(명령줄 인터페이스)와 MCP(모델 컨텍스트 프로토콜, AI가 외부 데이터에 접근하는 표준) OAuth(개방형 인증 표준) 자격 증명을 저장해 관리한다. 모든 로그인은 ChatGPT를 통해 강제되며 액세스는 ChatGPT 엔터프라이즈 워크스페이스에 고정된다. 이를 통해 모든 활동은 ChatGPT 컴플라이언스 로그 플랫폼(기업용 규정 준수 기록 시스템)에서 관리된다.
Auto-review 모드(저위험 요청을 자동 승인하는 기능)가 도입됐다. 하위 에이전트가 계획된 작업과 최근 맥락을 분석해 단순 작업은 즉시 처리하고 고위험 작업만 사용자에게 확인을 요청한다. 쉘 명령어의 경우 엔지니어가 일상적으로 사용하는 무해한 명령은 샌드박스 외부에서도 승인 없이 허용하지만, 위험한 명령어는 차단하거나 반드시 승인을 받게 한다.
설정 방식은 클라우드 관리 요구사항과 macOS 관리 기본 설정, 로컬 요구사항 파일의 조합으로 이뤄진다. 관리자가 강제하는 요구사항은 사용자가 임의로 변경할 수 없다. 이러한 구성은 데스크톱 앱, CLI, IDE(통합 개발 환경) 확장 프로그램 전체에 동일하게 적용되어 팀이나 사용자 그룹, 환경별로 다른 설정을 테스트하면서도 일관된 기준선을 유지한다.
에이전트 인지형 텔레메트리와 보안 분석
기존 보안 로그는 프로세스 시작이나 파일 변경 같은 결과만 기록했다. 이제는 OpenTelemetry(분산 시스템의 관측 데이터를 수집하는 표준) 로그를 통해 사용자 프롬프트와 도구 승인 결정, 도구 실행 결과, MCP 서버 사용 내역, 네트워크 프록시 허용 및 거부 이벤트 같은 의도까지 추적한다. 엔터프라이즈 및 교육용 고객은 OpenAI 컴플라이언스 플랫폼을 통해 이러한 활동 로그에 접근할 수 있다.
보안 팀은 AI 기반 보안 트리아지 에이전트(보안 경고의 우선순위를 정하고 분석하는 AI)를 활용한다. 엔드포인트 보안 도구가 이상 징후를 알리면, 이 에이전트가 Codex 로그를 분석해 원래 요청과 도구 활동, 승인 결정, 도구 결과, 네트워크 정책 결정 내역을 검토한다. 이를 통해 단순한 실수인지 실제 공격인지 판별해 보안 팀에 보고한다.
운영 측면에서는 텔레메트리 데이터를 통해 내부 도입 현황과 MCP 서버 사용 빈도를 확인한다. 네트워크 샌드박스가 얼마나 자주 차단이나 프롬프트를 발생시키는지 분석해 롤아웃 설정을 튜닝한다. 수집된 OpenTelemetry 로그는 SIEM(보안 정보 및 이벤트 관리 시스템)과 컴플라이언스 로그 시스템으로 통합되어 중앙 관리된다.
AI 에이전트의 가치는 이제 성능이 아니라 통제 가능한 거버넌스 체계에서 결정된다.




