1.43배. 이 수치는 GPT-5.5 Codex(코딩에 특화된 AI 모델)의 추론 설정을 medium에서 high로 올렸을 때 발생하는 평균 비용의 증가분이다. 비유하자면 빠르게 훑어보는 검토 단계에서 꼼꼼하게 살피는 전문가의 리뷰 단계로 넘어갈 때 지불하는 추가 비용과 같다. 그런데 이 정도의 비용 투자가 실제로 개발자가 바로 사용할 수 있는 수준의 코드 품질 향상으로 이어지는지가 이번 분석의 핵심이다.

추론 노력 설정에 따른 성능 데이터

이번 실험은 Go(구글이 만든 정적 타입 언어) 기반의 GraphQL-go-tools(데이터 쿼리 언어인 GraphQL을 Go 언어로 구현한 도구) 저장소에서 실제 작업 26개를 대상으로 진행되었다. 연구팀은 추론 노력 설정을 low, medium, high, xhigh 네 단계로 나누어 실행하고 그 결과를 측정했다. 테스트 통과율은 low와 medium이 21/26으로 동일했지만, 사람이 작성한 패치와 동작이 일치하는 의미적 동등성(결과적으로 사람이 의도한 것과 동일한 동작을 수행하는지 여부)은 low 4/26에서 medium 11/26으로 크게 뛰었다. 코드 리뷰 통과율 역시 low 3/26에서 medium 5/26으로 상승했다.

평가 과정에서는 Stet(패치 적용 및 테스트 실행 도구)을 사용하여 격리된 컨테이너 환경에서 테스트를 수행했다. 판정 모델로는 GPT-5.4를 사용했으며, 판정자는 어떤 설정으로 만든 패치인지 모르는 상태에서 정확성과 유지보수성을 평가했다. 상세한 데이터와 대화형 차트는 stet.sh/blog/gpt-55-codex-graphql-reasoning-curve에서 확인할 수 있다. 각 설정별 평균 비용은 low 2.65달러, medium 3.13달러, high 4.49달러, xhigh 9.77달러로 집계되었으며 실행 시간은 286.9초에서 753.3초까지 늘어났다.

단순 통과를 넘어 실제 병합 가능한 코드로

단순히 테스트 통과 여부만 확인하던 기존 방식에서 벗어나, 사람이 짠 코드와 얼마나 비슷한지와 실제 리뷰어가 승인할 수준인지를 기준으로 비교했다. Low 설정에서 Medium으로 넘어갈 때 가장 눈에 띄는 변화는 휴리스틱(엄격한 논리보다는 경험적인 규칙이나 단순한 패턴으로 문제를 해결하려는 방식)에서 도메인 모델링(시스템의 실제 비즈니스 논리와 구조를 이해하고 반영하는 것)으로의 전환이다. 예를 들어 PR(Pull Request, 코드 변경 사항을 반영해달라고 요청하는 제안서) #1297 작업에서 low 설정은 단순한 분기 추가로 테스트만 통과시켰지만, medium 설정은 데이터 의존성 규칙을 정확히 모델링하여 리뷰까지 통과했다.

High 설정은 추가적인 토큰 소모가 실제 코드 품질 이득으로 전환되는 지점이다. Medium 대비 테스트 통과는 15.4%p, 동등성은 26.9%p, 리뷰 통과는 19.2%p 증가하며 가장 실용적인 개선 폭을 보였다. PR #1209 작업에서 low와 medium은 테스트를 통과하고도 리뷰에서 탈락했지만, high 설정은 명시적인 응답 키 처리를 도입해 엄격한 기준을 모두 통과했다. 이는 단순히 코드를 많이 쓴 것이 아니라 통합 세부 사항을 정확하게 맞혔음을 의미한다.

Xhigh 설정에 도달하면 품질은 더 높아지지만 효율성은 떨어진다. 의미적 동등성은 23/26, 리뷰 통과는 18/26으로 최고치를 기록했지만 비용은 9.77달러로 high보다 2.18배나 비싸졌다. 특히 풋프린트 위험(AI가 수정한 코드의 전체 범위가 넓어져 발생할 수 있는 잠재적 버그 위험)이 증가하는 부작용이 나타났다. Xhigh는 구현 코드 외에도 Fixture(테스트를 위해 미리 준비해둔 고정된 데이터 세트)와 테스트 파일을 과도하게 수정하는 경향이 있었다. 실제로 PR #1155 작업에서는 xhigh가 오히려 잘못된 구현을 만들어 high 설정보다 낮은 성능을 보이는 역전 현상이 발생하기도 했다.

이제 AI 코딩의 성패는 답을 맞혔는가가 아니라 유지보수 가능한 코드를 짰는가라는 엔지니어링의 관점으로 옮겨가고 있다.