코드베이스 전체를 읽는 100만 토큰 GLM-5.2의 MIT 전격 공개

100만 토큰의 컨텍스트 창을 지원하는 플래그십 모델

수만 줄의 코드베이스나 방대한 기술 문서를 AI에 입력하다 보면 컨텍스트 길이 제한에 걸려 내용을 쪼개어 입력해야 하는 불편함이 있다. 이러한 제약을 해결하기 위해 100만 토큰의 컨텍스트 창을 안정적으로 지원하는 플래그십 모델 GLM-5.2가 공개되었다. 이 모델은 장기적인 맥락 유지와 복잡한 작업 수행 능력을 극대화한 것이 특징이다. 방대한 양의 데이터를 한 번에 입력하고도 일관성 있는 결과물을 얻을 수 있어 대규모 프로젝트 분석 환경에 적합하다.

추론 속도를 높이기 위해 다중 토큰 예측(MTP, 한 번에 여러 개의 토큰을 예측해 생성 속도를 높이는 기술) 레이어를 개선했다. 이를 통해 작은 모델이 먼저 예측하고 큰 모델이 검증해 속도를 높이는 투기적 디코딩(Speculative Decoding)의 수용 길이를 최대 20%까지 늘렸다. 실제 체감하는 생성 속도를 크게 향상시켜 이전 버전인 GLM-5.1과 비교해 장기 작업 수행 능력을 비약적으로 상승시켰다.

라이선스 정책은 지역적 제한이나 기술적 장벽이 없는 MIT 라이선스(누구나 자유롭게 수정하고 상업적으로 이용할 수 있는 오픈소스 라이선스)를 채택했다. 전 세계 개발자가 제약 없이 모델을 최적화하고 배포할 수 있도록 완전히 개방한 조치다. 이제 개발자는 폐쇄형 모델 수준의 코딩 성능과 대규모 문맥 처리 능력을 갖춘 오픈소스 모델을 상업적 목적으로 자유롭게 활용할 수 있는지 판단할 수 있게 되었다.

아키텍처 도입으로 연산 효율 2.9배 향상

버전 숫자가 소폭 바뀌는 짧은 간격 사이에 모델의 체급과 효율이 완전히 달라졌다. 단순한 성능 개선을 넘어 아키텍처의 효율성을 극대화해 처리 속도와 자원 활용도를 동시에 끌어올린 결과다. 매 4개의 희소 주의 집중(Sparse Attention, 입력 데이터의 중요한 부분에만 집중해 연산량을 줄이는 기술) 레이어마다 동일한 인덱서를 재사용하는 IndexShare 설계를 도입해 연산 구조를 최적화했다.

이 설계를 통해 100만 토큰의 긴 컨텍스트를 처리할 때 토큰당 부동 소수점 연산 횟수(FLOPs, 컴퓨터가 수행하는 기본 연산 단위)를 2.9배 줄이는 성과를 거두었다. 이는 방대한 양의 데이터를 처리할 때 발생하는 연산 부하를 획기적으로 낮춘 것으로, 하드웨어 자원이 제한적인 환경에서도 대규모 문맥을 효율적으로 처리할 수 있는 실질적인 가능성을 열었다.

소프트웨어 엔지니어링 능력을 측정하는 SWE-bench Pro에서는 62.1점을 기록했다. 특히 DeepSWE의 경우 46.2점을 기록하며 이전 버전인 GLM-5.1이 기록한 18점과 비교해 압도적인 성능 향상을 보였다. FrontierSWE에서는 74.4점을 기록해 일부 폐쇄형 모델과 대등하거나 이를 상회하는 수준의 코딩 및 소프트웨어 엔지니어링 능력을 입증했다.

이제 개발자는 MIT 라이선스의 오픈소스 모델만으로도 폐쇄형 모델 수준의 코딩 성능과 대규모 문맥 처리 능력을 동시에 확보할 수 있는지 판단할 수 있게 됐다. 인덱서 재사용이라는 기술적 장치가 실제 벤치마크 수치로 연결되며 오픈소스 모델의 활용 범위를 확장했다.

고난도 추론 및 에이전트 능력 입증

복잡한 수식이나 전공 서적 수준의 과학 문제를 던졌을 때 AI가 엉뚱한 답을 내놓던 경험은 이제 과거의 일이 된다. GLM-5.2는 수학적 추론 능력을 평가하는 AIME 2026 벤치마크에서 99.2점이라는 수치를 기록했다. 고난도 과학 지식을 묻는 GPQA-Diamond에서도 91.2점을 획득했다. 수학적 추론과 과학적 지식이라는 두 축에서 모두 높은 점수를 기록하며 정교한 논리 전개가 필요한 고난도 태스크에서 추론 성능을 확보했다.

단순 답변을 넘어 외부 도구를 직접 다루는 에이전트 능력도 구체적인 지표로 입증됐다. 모델의 도구 사용 능력을 측정하는 지표인 MCP-Atlas 공공 세트에서 76.8점을 기록했다. 외부 도구를 적재적소에 활용해 자동화 작업을 수행하는 능력을 갖춘 결과다. 단순한 텍스트 생성을 넘어 실제 액션으로 이어지는 자동화 가능성을 보여주며 AI가 정적인 지식 제공자를 넘어 실무적 에이전트로 작동할 수 있는 근거가 된다.

실제 활용 환경에서는 Unsloth Studio(AI 모델 최적화 및 배포 도구)를 통해 사고의 깊이를 직접 제어할 수 있다. 고성능 사고 모드와 최대 사고 모드를 선택해 전환하는 토글 기능을 제공한다. 또한 Z.ai API 플랫폼을 통해 서비스 형태로도 이용 가능하다. 사용자는 해결해야 할 문제의 난이도에 따라 사고 모드를 선택함으로써 추론 자원을 효율적으로 배분하고 결과물의 정밀도를 세밀하게 조정할 수 있다.

수만 줄의 코드베이스나 방대한 기술 문서를 입력할 때 겪던 컨텍스트 길이 제한의 불편함은 이제 기술적 제약이 아닌 선택의 문제로 옮겨간다. GLM-5.2는 100만 토큰의 컨텍스트 창을 MIT 라이선스로 공개하고 IndexShare 아키텍처로 토큰당 FLOPs를 2.9배 줄이며 효율성을 증명했다. 결국 오픈소스 모델로도 폐쇄형 모델 수준의 대규모 문맥 처리와 코딩 성능을 온전히 대체할 수 있는지가 핵심 판단 기준이 된다.

코드베이스 전체를 읽는 100만 토큰 GLM-5.2의 MIT 전격 공개

100만 토큰의 컨텍스트 창을 지원하는 플래그십 모델

아키텍처 도입으로 연산 효율 2.9배 향상

고난도 추론 및 에이전트 능력 입증

관련 기사