이번 주 개발자 커뮤니티에서 가장 뜨거운 화제는 OpenAI의 GPT-5.5다. Plus, Pro, Business, Enterprise 구독자를 대상으로 ChatGPT와 Codex(OpenAI의 코드 에이전트 플랫폼)에 동시에 배포되면서, "드디어 사람이 붙잡고 있지 않아도 되는 모델이 나왔다"는 반응이 쏟아지고 있다. 특히 터미널 환경에서 복잡한 명령어 워크플로를 자동화하는 벤치마크에서 경쟁 모델을 큰 폭으로 따돌리며, ML 엔지니어와 데이터 과학자 사이에서 '이건 진짜다'는 평가가 나온다.
GPT-5.5, 4개 벤치마크에서 경쟁사 압도…터미널-벤치 82.7%
OpenAI가 공개한 수치에 따르면, GPT-5.5는 Terminal-Bench 2.0(터미널 환경에서 계획·반복·도구 조정 능력을 평가하는 벤치마크)에서 82.7%를 기록했다. 이는 Claude Opus 4.7(69.4%)과 Gemini 3.1 Pro(68.5%)를 13%포인트 이상 앞선 결과다. SWE-Bench Pro(실제 깃허브 이슈 해결 능력 평가)에서는 58.6%로, Claude Opus 4.7(64.3%)에 다소 뒤졌지만, OpenAI 측은 Anthropic이 일부 문제에서 암기 징후를 보고했다고 지적했다. 장기 코딩 작업(중간 완료 시간 20시간)을 측정하는 Expert-SWE 내부 벤치마크에서는 GPT-5.4를 능가했다. OSWorld-Verified(실제 컴퓨터 환경 자동 조작 능력) 78.7%, GDPval(44개 직종 지식 작업) 84.9%, BrowseComp(웹 정보 추적) Pro 변형 90.1%를 기록했다. 가격은 표준 GPT-5.5 API가 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러로, GPT-5.4 대비 각각 2배 올랐다. Pro 변형은 입력 100만 개당 30달러, 출력 100만 개당 180달러다.
예전에는 사람이 매 단계 지시해야 했지만, 이제는 목표만 던져주면 스스로 완료한다
기존의 언어 모델은 단일 프롬프트에 응답하는 수준이었다. 복잡한 작업을 시키려면 사람이 중간중간 끊어서 다시 지시하거나 방향을 수정해야 했다. GPT-5.5는 '에이전트 모델'로 설계돼, 웹 검색, 코드 작성, 스크립트 실행, 소프트웨어 조작 등 도구를 스스로 사용하고, 자신의 작업을 검증하며, 목표가 달성될 때까지 멈추지 않는다. OpenAI는 이를 "체크리스트가 필요한 조수와, 목표를 이해하고 스스로 단계를 찾아내는 조수의 차이"라고 설명했다. 개발자들은 초기 테스트에서 "GPT-5.5가 소프트웨어 시스템의 '형태'를 더 잘 이해하고, 왜 실패했는지, 어디를 고쳐야 하는지, 코드베이스의 다른 부분에 어떤 영향을 미칠지 더 정확히 파악한다"고 평가했다. Codex 사용량은 주간 약 400만 명의 개발자로 급증했으며, 이번 모델은 연구 프리뷰가 아닌 즉시 대규모 사용자 기반에 투입되는 프로덕션 모델이다.
개발자가 바로 체감하는 변화는 토큰 효율성이다
OpenAI는 GPT-5.5가 GPT-5.4와 동일한 지연 시간을 유지하면서도, 동일한 Codex 작업을 완료하는 데 훨씬 적은 토큰을 사용한다고 밝혔다. 토큰당 가격은 두 배 올랐지만, 작업당 소모 토큰이 줄어들어 실질적인 비용은 오히려 낮아질 수 있다는 계산이다. 예를 들어, GPT-5.4로 1000토큰이 필요했던 작업이 GPT-5.5에서는 400토큰으로 끝난다면, 총비용은 2.5달러에서 2.0달러로 20% 절감된다. 이는 대규모 Codex 운영팀에게 중요한 요소로, "단순히 가격표만 보면 안 되고, 완료된 작업당 실제 지출을 봐야 한다"는 분석이 나온다.
GPT-5.5는 에이전트 모델의 기준선을 다시 그었다. 이제 경쟁은 '누가 더 똑똑한가'가 아니라 '누가 더 적은 개입으로 더 많은 일을 끝내는가'로 옮겨갔다.




