"실무 가능할까?" GPT-5.5가 1위 했지만 정답률 24%인 '최후의 시험' ALE

발표에서 확인된 핵심 사실

0.0%라는 숫자가 주는 충격은 생각보다 크다. 앤스로픽의 Claude Opus 4.8과 구글의 Gemini CLI 같은 주요 모델들이 전문가 수준의 난이도를 측정하는 'Last-Exam' 단계에서 단 한 문제도 맞히지 못했다. UC 버클리 RDI(책임감 있는 분산 지능 센터)와 300명 이상의 도메인 전문가들이 함께 만든 'Agents’ Last Exam(ALE)' 벤치마크(성능 측정 기준)의 결과다. 학계의 과장된 평가 방식과 실제 노동 생산성 사이의 간극을 그대로 드러낸 수치다.

이번 벤치마크는 UC 버클리 RDI가 300명 이상의 분야별 전문가들과 협력해 설계했다. AI가 단순히 텍스트를 생성하는 수준을 넘어, 실제로 경제적 가치가 있는 장기 전문 워크플로우(업무 처리 과정)를 수행할 수 있는지 측정하는 것이 목적이다. AI가 내놓는 답변이 얼마나 그럴듯한지가 아니라, 실제 업무 현장에서 실질적인 이득을 만들어낼 수 있는 생산성을 갖췄는지 검증하겠다는 의도다.

가장 까다로운 시험은 전문가 수준의 난이도를 요구하는 'Last-Exam' 계층이다. 전문 지식을 바탕으로 긴 호흡의 작업을 완수해야 하는 이 단계는 현재 AI 기술이 도달해야 할 전문성의 최전선을 대변한다. 여기서 대부분의 모델이 0.0%의 통과율을 기록하며 완전히 무너졌다. 현재의 AI 기술이 실제 전문 업무를 수행하는 데 명확한 한계가 있음을 보여준다.

기술이 실제로 작동하는 방식

시험 성적이 좋다고 해서 모두 현장에서 똑같은 실력을 발휘하는 건 아니다. 예상을 뒤엎고 코덱스 하네스(모델을 실행하는 제어 장치)를 통해 작동한 GPT-5.5가 24.0%의 통과율로 ALE 리더보드 1위에 올랐다. 최근 출시된 Claude Fable 5가 22.0%의 점수로 뒤를 이었으며, 이는 여러 단계로 꼬인 복잡한 지시사항을 끝까지 준수하며 작업을 완수하는 능력에서 OpenAI 모델이 더 앞서 있음을 보여준다.

ALE는 AI가 컴퓨터를 다루는 능력을 뇌, 눈, 몸, 손, 발이라는 다섯 가지 기능 계층으로 나누어 측정한다. 추론을 담당하는 뇌, 화면의 시각 정보를 인식하는 눈, 작업 순서를 정하고 전체 흐름을 조율하는 몸, 특정 도구를 호출하는 손, 운영체제처럼 프로그램이 실제로 돌아가는 바닥인 발로 구성된다. 에이전트는 리눅스나 윈도우 가상 환경에 접속해 쉘 스크립트(명령어 입력창에 직접 쓰는 코드)를 작성하는 동시에, 무거운 데스크톱 소프트웨어 내부에서 마우스 클릭 작업을 정교하게 번갈아 수행해야 한다.

문제를 미리 외워 정답을 맞히는 벤치마크 오염을 막기 위해 오픈소스 연구와 데이터 보호라는 두 가지 전략을 병행해 데이터셋의 90%를 숨겼다. 전체 1,490개 작업 중 약 10%에 해당하는 150개 정도만 GitHub나 Hugging Face에 공개하고 나머지는 엄격하게 비공개로 관리한다. 비공개 작업들을 주기적으로 교체하는 살아있는 벤치마크 방식을 도입해 AI가 평가 데이터를 미리 학습해 점수만 높이는 편법을 원천적으로 차단했다.

GPT-5.5가 ALE 벤치마크에서 24%라는 점수로 1위를 차지했지만, 실제 업무에 투입하기엔 여전히 갈 길이 멀다. 뇌와 눈, 몸, 손과 발의 기능을 층층이 쌓아 올린 GCUA 프레임워크가 아무리 정교해도 시험지와 실무 현장의 간극은 크기 때문이다.

이제 AI 에이전트의 가치는 화려한 마케팅 수치가 아니라 유료 소프트웨어를 얼마나 정확하게 조작하는지로 결정된다. 결국 정답을 맞히는 지능보다 도구를 다루는 숙련도가 도입 시점을 가르는 진짜 기준이 될 것이다.

"실무 가능할까?" GPT-5.5가 1위 했지만 정답률 24%인 '최후의 시험' ALE

발표에서 확인된 핵심 사실

기술이 실제로 작동하는 방식

관련 기사