89.6%.
이 수치는 GPT 5.5 High가 LiveCodeBench Pro(실시간 코딩 능력을 측정하는 벤치마크)에서 기록한 기본 점수다. 이미 최상위권의 실력이지만, 아주 까다로운 문제 앞에서는 여전히 빈틈을 보이는 수준이라고 볼 수 있다. 그런데 Poetiq(AI 성능 최적화 연구팀)은 모델의 뇌를 건드리지 않고도 이 점수를 더 끌어올리는 방법을 찾아냈다.
93.9%까지 끌어올린 자동 최적화 도구
Poetiq은 자신들이 개발한 Meta-System(자동으로 최적화 도구를 만드는 시스템)을 통해 LCB Pro에서 새로운 최고 기록을 세웠다고 발표했다. 이 시스템은 모델 자체를 다시 학습시키는 파인튜닝(특정 목적에 맞게 모델을 미세 조정하는 과정) 없이, 모델을 감싸는 외부 구조만으로 성능을 높였다. 그 결과 GPT 5.5 High의 점수는 89.6%에서 93.9%로 상승했다.
Gemini 3.1 Pro의 변화는 더 극적이다. 78.6%였던 기본 점수가 90.9%까지 치솟으며, Google의 Gemini 3 Deep Think가 기록한 88.8%마저 넘어섰다. 이 모든 결과는 livecodebenchpro.com의 25Q2 리더보드 수치를 기반으로 한다.
LiveCodeBench Pro는 단순한 정답 맞히기를 넘어 C++ 언어의 복잡한 절차적 로직과 창의적 문제 해결 능력을 시험한다. 특히 정답뿐만 아니라 메모리 사용량과 실행 시간이라는 엄격한 제약 조건을 모두 만족해야 점수를 얻을 수 있다. 데이터 오염이나 과적합(특정 데이터에만 너무 익숙해져 응용력이 떨어지는 현상)을 방지하기 위해 최신 경쟁 프로그래밍 문제를 지속적으로 업데이트하는 것이 특징이다.
모델을 가리지 않는 범용 하네스의 등장
예전에는 엔지니어가 직접 하네스(Harness, 모델 주변에서 프롬프트와 출력을 관리하는 인프라 층)를 설계해 모델의 성능을 극대화했다. 하네스는 모델에게 어떻게 질문하고, 답변을 어떤 구조로 정리하며, 여러 번의 호출을 통해 최종 답안을 어떻게 조립할지 결정하는 오케스트레이션 층과 같다. 쉽게 말하면, 똑똑한 학생에게 어떤 식으로 공부 가이드를 줄지 사람이 일일이 짜주던 방식이다.
이제는 Meta-System이 이 과정을 자동으로 수행한다. 이 시스템은 스스로 더 나은 질문 전략을 세우고, 질문의 순서를 정교하게 다듬으며, 답변을 조립하는 새로운 방법을 고안하는 재귀적 자기 개선 과정을 거친다. 비유하자면, AI 코치가 스스로 시험 문제를 분석해 최적의 공부법을 찾아내고 이를 가이드북으로 만드는 것과 비슷하다.
개발자가 체감하는 가장 큰 변화는 이 하네스가 모델의 종류를 가리지 않는다는 점이다. Gemini 3.1 Pro를 기준으로 최적화해 만든 하네스를 다른 모델에 그대로 적용했음에도 모든 테스트 모델의 성능이 향상되었다. 이는 특정 모델의 내부 구조에 의존하지 않고 API(소프트웨어 간 통신 규칙) 접근만으로도 성능을 높일 수 있음을 증명한다.
모델의 크기가 작아도 효율적인 하네스만 있다면 거대 모델을 이길 수 있다는 결과도 나왔다. Gemini 3.0 Flash(속도와 효율을 높인 경량 모델)는 72.3%에서 82.3%로 점수가 오르며, 더 크고 비싼 Claude Opus 4.7(Anthropic의 최상위 모델)이나 GPT 5.2 High를 추월했다. Kimi K2.6(중국에서 개발한 대규모 언어 모델)은 50.0%에서 79.9%로 약 30%p라는 가장 큰 폭의 상승을 기록했으며, Nemotron 3 Super 120B(엔비디아가 개발한 고성능 언어 모델) 역시 12.8%의 성능 향상을 보였다.
이제 AI의 경쟁력은 모델의 덩치를 키우는 체급 싸움이 아니라, 그 능력을 얼마나 영리하게 끌어내는 포장지의 기술 싸움으로 옮겨가고 있다.




