744B 파라미터 규모의 오픈 모델 GLM-5.2 공개
Z.ai가 공개한 GLM-5.2는 744B라는 압도적인 규모를 가지면서도 로컬 환경에서의 구동 가능성을 열었다. 기존에는 수천억 개의 파라미터를 가진 거대 모델을 개인 컴퓨터에서 직접 돌리는 것이 사실상 불가능했으나, 이번 모델은 효율적인 구조를 통해 이를 해결했다.
이 모델은 전체 744B 파라미터 중 실제로 계산에 참여하는 활성 파라미터를 40B로 제한해 효율을 높였다. 컨텍스트 윈도우는 1M(약 100만 토큰)에 달해 긴 호흡의 코딩이나 복잡한 추론, 에이전트 작업에서 SOTA(State-of-the-Art)급 결과물을 내놓는다.
특히 2비트 양자화를 적용한 UD-IQ2_M 버전은 256GB 통합 메모리를 갖춘 맥에서 구동할 수 있다. 디스크 공간은 239GB를 사용하며, 24GB GPU 한 장과 256GB 램이 있는 환경에서도 MoE 오프로딩(필요한 부분만 메모리에 올려 쓰는 방식)으로 동작한다.
Unsloth Dynamic GGUF를 통한 성능 최적화
GLM-5.2는 Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro 같은 최신 상용 모델과 대등하거나 더 높은 벤치마크 성능을 기록했다. 수학 문제 해결 능력을 측정하는 AIME 2026에서는 99.2점을 기록해 비교군 중 가장 높았고, IMOAnswerBench에서도 91.0점을 기록하며 Claude Opus 4.8(83.5점)을 앞질렀다.
이러한 성능을 로컬로 가져온 핵심은 Unsloth Dynamic GGUF 기술이다. GGUF는 모델의 가중치 데이터를 압축해 메모리 사용량을 줄이는 방식이며, 여기에 정밀도를 낮추는 양자화 기술을 결합했다. Dynamic 1-bit 방식은 모델 크기를 86% 줄이면서 76.2%의 정확도를 유지하고, Dynamic 2-bit는 크기를 84% 줄여 82%의 정확도를 확보한다. 이를 통해 1.5TB에 달하는 원본 모델 크기를 획기적으로 줄이면서 성능 손실을 최소화했다.
Unsloth Studio로 구현한 로컬 AI 실행 환경
웹 브라우저만으로 로컬 AI를 제어할 수 있는 Unsloth Studio가 함께 제공된다. MacOS, Windows, Linux를 모두 지원하며 GGUF나 safetensor 모델을 직접 검색해 내려받고 즉시 실행할 수 있다. GPU 메모리가 부족할 때 시스템 메모리로 데이터를 옮기는 RAM 오프로딩과 다중 GPU 자동 인식 기능이 탑재됐다. 또한 파이썬 및 배시 코드 실행, 실시간 웹 검색, 오류 발생 시 스스로 수정하는 셀프 힐링 툴 콜링 기능을 통해 개발 편의성을 높였다.
추론 강도는 사용자가 작업 난이도에 따라 세 가지 모드로 조절할 수 있다. `reasoning_effort` 설정값을 통해 Non-thinking, Thinking High, Thinking Max 모드를 선택한다. 단순 질의응답에는 낮은 단계를, 고도의 논리가 필요한 복잡한 코딩이나 수학 작업에는 Max Thinking 모드를 사용한다.
수천억 개의 파라미터를 가진 모델을 로컬에서 돌리는 물리적 제약은 다이내믹 GGUF 양자화와 KV 캐시 최적화로 해결됐다. 이제 256GB 메모리를 갖춘 맥 스튜디오 사용자라면 외부 API 호출 없이도 최상위권의 추론 성능을 내 컴퓨터 안에서 온전히 누릴 수 있다. 본문에 제시된 설치 가이드와 메모리 기준을 통해 내 환경에서 SOTA급 모델을 직접 구동할 수 있을지 판단해 보자. 이제 고성능 추론 모델을 클라우드 API 없이 로컬 환경에서 직접 운용할 수 있게 됐다.




