AI 코딩 에이전트 벤치마크 신뢰도 하락과 새로운 평가 기준

디자이너 겸 개발자 B씨는 최근 프로젝트에 도입할 AI 코딩 에이전트를 고르기 위해 깃허브(GitHub, 오픈소스 코드 저장소)와 벤치마크 지표를 살피다 혼란에 빠졌다. 분명 어제 본 지표와 오늘 본 지표의 수치가 제각각이고, 어떤 도구는 압도적인 점수를 자랑하지만 정작 실무에서는 기대에 미치지 못하는 경우가 허다하기 때문이다. 이런 곤란을 겪는 개발자가 늘고 있다.

벤치마크의 몰락과 SWE-bench Pro의 부상

2026년 2월 23일, OpenAI의 Frontier Evals(모델의 위험성과 성능을 평가하는 팀)는 기존 업계 표준이었던 SWE-bench Verified의 신뢰성에 의문을 제기하는 보고서를 발표했다. 64개의 독립적인 실행 환경에서 138개의 고난도 문제를 검토한 결과, 59.4%의 테스트 케이스가 근본적인 결함을 안고 있거나 해결 불가능한 상태였다. 특히 GPT-5.2, Claude Opus 4.5, Gemini 3 Flash와 같은 주요 모델들이 훈련 데이터 오염으로 인해 문제 ID만 보고 정답을 암기해 출력한다는 사실이 밝혀졌다. 이에 따라 OpenAI는 실무 소프트웨어 개발 능력을 평가하기 위한 새로운 기준으로 SWE-bench Pro를 공식 권장하고 있다.

평가 환경에 따른 성능 격차

예전에는 모델 자체의 지능이 곧 에이전트의 성능으로 직결된다고 믿었지만, 이제는 에이전트 스캐폴딩(Scaffolding, 모델이 코드를 작성하도록 돕는 주변 프레임워크)이 결과값을 좌우한다. 2026년 2월에 진행된 731개 문제에 대한 평가에서, 동일한 Claude Opus 4.5 모델을 사용했음에도 어떤 프레임워크를 적용하느냐에 따라 17개 문제(약 2.3% 포인트)의 성능 차이가 발생했다. 즉, 벤치마크 점수는 모델 단독의 능력이 아니라 모델과 특정 에이전트 도구의 결합 결과물로 해석해야 한다.

터미널 작업과 실무 지표의 현실

터미널 환경에서의 작업 능력을 측정하는 Terminal-Bench 2.0(쉘 스크립트, 파일 시스템 조작, 환경 설정 등을 평가하는 도구)에서는 2026년 4월 23일 기준 GPT-5.5가 82.7%로 선두를 달리고 있다. 하지만 Anthropic과 AWS가 보고한 Claude Opus 4.7의 69.4%, Gemini 3.1 Pro의 68.5% 점수를 비교할 때 주의할 점이 있다. Anthropic의 시스템 카드에 따르면, 동일한 모델이라도 평가 환경(Harness)에 따라 7% 포인트 이상의 점수 차이가 발생한다. 따라서 서로 다른 출처의 수치를 비교할 때는 반드시 어떤 실행 환경에서 테스트했는지 확인해야 한다.

접근 불가능한 최상위 모델의 존재

2026년 4월 7일, Anthropic은 Project Glasswing(사이버 보안 역량 강화를 위한 프로젝트)의 일환으로 Claude Mythos Preview를 공개하며 SWE-bench Verified에서 93.9%라는 기록적인 점수를 달성했다고 밝혔다. 그러나 이 모델은 일반 개발자에게 공개되지 않으며, 보안 문제로 인해 당분간 광범위한 배포 계획도 없다. 이런 특수 사례는 현재 공개된 벤치마크가 실제 개발자가 체감하는 도구의 성능과 괴리가 있을 수 있음을 시사한다.

벤치마크 숫자에 매몰되기보다 본인의 개발 환경과 가장 유사한 스캐폴딩을 제공하는 도구를 직접 테스트하는 것이 유일한 해법이다.