Z ai, GLM-5.2 공개... 오픈 가중치 모델 지능 지수 51점 기록

facts

이번 업데이트에서 가장 먼저 확인되는 변화는 모델의 지능 지수 상승과 컨텍스트 윈도우의 확장이다. Z ai가 공개한 GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록하며 오픈 가중치 모델 중 1위에 올랐다. 이는 경쟁 모델인 MiniMax-M3(44점), DeepSeek V4 Pro(max)(44점), Kimi K2.6(43점)을 상회하는 수치다.

모델의 규모는 이전 버전인 GLM-5.1과 동일한 744B 전체 파라미터 및 40B 활성 파라미터 구조를 유지하고 있다. 하지만 지능 지수 점수는 GLM-5.1 대비 11점 상승했다. 특히 개발 환경과 관련된 제약 사항에서 큰 변화가 있었다. 컨텍스트 윈도우가 기존 200K에서 1M 토큰으로 대폭 늘어났으며, 라이선스는 MIT 라이선스로 제공된다.

모델의 신뢰도 지표인 AA-Omniscience Index에서는 4점을 기록해 GLM-5.1의 2점보다 높아졌다. 세부 수치를 보면 정확도는 25.1%(GLM-5.1: 24.2%)로 상승했고, 환각률(hallucination rate)은 28.1%(GLM-5.1: 29.4%)로 낮아졌다. 시도율(attempt rate)은 47%로 이전 버전과 동일하다.

how-it-works

성능 개선은 특히 과학적 추론과 에이전트 수행 능력에서 두드러진다. GLM-5.1과 비교했을 때 과학적 추론 영역의 CritPt는 16점(21%) 상승했고, HLE는 12점(40%) 상승했다. 그 외 GPQA Diamond(+3점, 89%), AA-LCR(+9점, 71%), tau3 banking(+15점, 27%), SciCode(+7점, 50%), TerminalBench v2.1(+16점, 78%) 등 대부분의 평가 지표에서 점수가 올랐다.

실세계 에이전트 성능을 측정하는 GDPval-AA v2 벤치마크에서는 1524점을 기록했다. 이는 MiniMax-M3(1418점)와 DeepSeek V4 Pro(max)(1328점)보다 높은 수치이며, GPT-5.5(xhigh reasoning)의 1514점과 유사한 수준이다. 해당 벤치마크는 인간 성능을 Elo 기준선 1000으로 설정하고, frontier-model judge의 순환 패널을 도입했으며, 에이전트 궤적을 더 길게 처리하기 위해 턴 제한을 100에서 250으로 상향 조정한 것이 특징이다.

처리 방식에서 주목할 점은 출력 토큰의 구성이다. GLM-5.2는 Intelligence Index 태스크당 평균 43k의 출력 토큰을 사용하는데, 이 중 37k가 추론(reasoning) 토큰이다. 이는 GLM-5.1(26k), MiniMax-M3(24k), Kimi K2.6(35k), DeepSeek V4 Pro(max)(37k) 등 주요 오픈 가중치 모델보다 많은 양의 토큰을 생성하여 결과에 도달함을 의미한다.

implementation-impact

개발자와 실무자가 도입 시 고려해야 할 핵심은 '지능 수준 대비 비용'과 '토큰 효율'의 트레이드오프다. GLM-5.2는 Intelligence vs Cost per Task 차트에서 Pareto frontier(최적 효율 곡선)에 위치한다. 즉, 동일한 지능 수준을 가진 모델들 중에서는 태스크당 비용이 가장 낮은 축에 속한다. 태스크당 비용은 약 $0.46로, GLM-5.1($0.25)보다는 높지만 향상된 지능 점수를 고려하면 비용 효율적이라는 판단이다.

다만, 앞서 언급한 대로 태스크당 출력 토큰 사용량이 많아 토큰 효율 자체는 낮다. 이는 Intelligence vs Output Tokens 차트에서 최적 사분면에 진입하지 못하는 원인이 된다. 단순 API 호출 비용 외에 토큰 생성량에 따른 지연시간(latency) 증가 가능성을 검토해야 한다.

first-party API 가격은 GLM-5.1과 동일하게 책정되었다.

- 1M 입력 토큰당: $1.4

- 1M 출력 토큰당: $4.4

- 1M cache hit 토큰당: $0.26

현재 GLM-5.2는 Z ai의 자체 API 외에도 DeepInfra, Novita, Nebius, Parasail, Siliconflow, GMI Cloud, Baseten, Fireworks 등 다양한 서드파티 제공자를 통해 이용 가능하다.

Z ai, GLM-5.2 공개... 오픈 가중치 모델 지능 지수 51점 기록

facts

how-it-works

implementation-impact

관련 기사