46%.

GPT-5.5가 이전 모델인 GPT-5.4 대비 OfficeQA Pro(기업용 에이전트 작업 벤치마크)에서 줄인 오류 수치다.

복잡한 서류 뭉치 속에서 오타 하나를 찾아내던 수준이 이제는 전체 문맥을 정확히 짚어내는 수준으로 올라섰다.

그런데 이 수치는 단순한 성능 향상을 넘어 기업용 AI 에이전트의 실전 배치 가능성을 완전히 바꾼다.

GPT-5.5의 벤치마크 돌파와 도입 경로

Databricks(데이터 관리 및 AI 플랫폼 기업)는 GPT-5.5를 자사 고객의 에이전트 워크플로우에 전격 도입했다. 이번 결정은 OfficeQA Pro라는 자체 벤치마크 결과에 기반한다. OfficeQA Pro는 스캔된 PDF, 레거시 파일(과거 시스템에서 생성된 오래된 문서), 롱 컨텍스트(방대한 양의 텍스트) 문서의 파싱(데이터를 분석해 구조화하는 과정)과 검색, 근거 기반 추론 능력을 평가하는 도구다. GPT-5.5는 이 테스트에서 최초로 정확도 50%를 돌파하며 새로운 기술적 기준점을 세웠다.

제공 경로는 AI Unity Gateway(AI 모델 접근을 통합 관리하는 관문)를 통한다. 고객은 AgentBricks(에이전트 구축 프레임워크)와 Agent Supervisor API(에이전트의 동작을 감독하고 제어하는 인터페이스)를 통해 이 모델을 활용한다. 이 시스템 내에서 GPT-5.5는 특화된 에이전트들 사이의 파싱과 검색, 실행 과정을 총괄하는 오케스트레이터 역할을 수행한다.

레거시 데이터 처리의 지형 변화

현장의 실무자가 스캔된 PDF 파일을 AI에게 넘겼을 때 벌어지는 상황이 달라졌다. 예전에는 스캔 문서에서 숫자 하나만 잘못 읽어도 그 오류가 뒤따르는 모든 작업 단계로 전이되는 연쇄 오류 현상이 빈번했다. GPT-5.4 같은 이전 모델들은 오래된 문서의 숫자를 정확히 파싱하지 못해 전체 작업 경로를 망가뜨리는 한계가 있었다. GPT-5.5는 여기서 계단식 상승(급격한 성능 향상)을 보이며 오래된 문서와 스캔 PDF의 처리 능력을 획기적으로 끌어올렸다.

작업 경로의 효율성에서도 뚜렷한 차이가 나타난다. 기존 모델은 복잡한 다단계 작업을 수행할 때 불필요한 검색 경로로 우회하며 시간을 낭비하는 경향이 있었다. GPT-5.5는 추가적인 감독 없이도 관련 컨텍스트를 정확히 검색하고 복잡한 워크플로우를 완수하는 신뢰도를 확보했다. 이는 AI 에이전트가 단순한 보조 도구를 넘어 실제 업무 프로세스를 책임지는 주체로 이동하고 있음을 뜻한다.

기업이 보유한 데이터의 상당수는 정제되지 않은 PDF나 오래된 파일 형태다. 이를 처리하기 위해 사람이 직접 데이터를 가공하던 비용이 이제는 모델의 파싱 능력으로 대체된다. Databricks가 GPT-5.5를 Agent Supervisor API에 배치한 것은 기업용 AI의 핵심 경쟁력이 '언어 능력'에서 '데이터 추출의 정확도'로 옮겨갔다는 판단이 깔린 포석이다. 결국 모델이 지저분한 원천 데이터를 얼마나 정확하게 읽어내느냐가 기업용 AI 에이전트의 실질적인 ROI(투자 대비 효율)를 결정짓는 핵심 변수가 됐다.