중국 AI 스타트업 Z.ai가 오픈 웨이트 모델
고성능 AI 모델의 API 호출 비용은 대규모 프로젝트를 운영하는 기업에 실질적인 비용 부담이 된다. 중국 AI 스타트업 Z.ai(구 Zhipu AI)는 7,530억 개의 파라미터를 탑재한 오픈 웨이트 모델 GLM-5.2를 즉시 출시하며 이 문제를 정면으로 다뤘다. 이 모델은 장기적인 호흡의 자율 코딩 및 엔지니어링 작업에서 지배적인 성능을 내도록 구체적으로 설계되었다.
GLM-5.2는 제약이 없는 MIT 오픈소스 라이선스로 공개되어 누구나 모델의 핵심 가중치를 즉시 다운로드할 수 있다. 기업은 이를 로컬 서버에 구축해 내부 데이터와 환경에 맞게 자유롭게 커스터마이징하는 것이 가능하다. 폐쇄형 API 모델과 달리 인프라 제어권을 완전히 확보하고 보안 문제를 자체적으로 해결할 수 있는 구조를 제공하며, 모델 최적화의 전 과정을 직접 관리할 수 있다.
실제 개발 워크플로우에 모델을 즉각적으로 투입하기 위한 GLM Coding Plan(코딩 전용 구독 서비스)도 함께 운영한다. 단순한 채팅 인터페이스를 넘어 Claude Code나 Cline(AI 코딩 에이전트) 같은 외부 코딩 도구와의 연동을 지원해 개발 효율을 높였다. 구독료는 연간 결제 기준 Lite 플랜 월 12.60달러부터 시작하며, 2년 차부터는 연간 151.20달러가 청구된다. 이는 소규모 저장소에서 가벼운 반복 작업을 수행하는 개발자에게 최적화된 가격대다.
주요 코딩 벤치마크에서 GPT-5.5를 상회하는 성능을 기록함
개발자가 API 호출 비용과 지역 제한이라는 벽에 부딪혀 로컬 모델을 찾는 상황은 이제 흔한 일이다. SWE-bench Pro(실제 소프트웨어 이슈 해결 능력을 측정하는 벤치마크)에서 GLM-5.2는 62.1점을 기록하며 GPT-5.5의 58.6점과 이전 버전인 GLM-5.1의 58.4점을 모두 앞섰다. 장기 과제 수행 능력을 평가하는 FrontierSWE에서도 GLM-5.2는 74.4%의 성공률을 보이며 GPT-5.5의 72.6%보다 높은 성과를 냈다. 프론티어급 코딩 성능을 갖춘 모델을 MIT 라이선스로 로컬에 구축함으로써 기업은 API 비용 절감과 데이터 보안 확보라는 두 가지 목적을 동시에 달성할 수 있다.
대규모 데이터를 처리하는 연산 효율은 IndexShare라는 아키텍처 최적화로 해결했다. 이 기술은 4개의 희소 어텐션 레이어마다 동일한 인덱서를 재사용하여 중복 연산을 제거하는 방식이다. 이를 통해 100만 토큰의 최대 컨텍스트 길이를 처리할 때 발생하는 연산량인 FLOPs(초당 부동 소수점 연산 횟수)를 2.9배 줄였다. 이는 기존의 희소 어텐션 구조에서 발생하는 연산 낭비를 줄이는 핵심 기제로 작용하며, 방대한 코드베이스를 한 번에 읽어야 하는 환경에서 연산 부하를 낮춘 결과다.
Z.ai는 사용자가 추론 강도를 직접 조절하는 Thinking Modes를 도입했다. 논리적 문제 해결 능력을 극한으로 끌어올리는 Max 모드와 성능 및 토큰 효율의 균형을 맞춘 High 모드로 구분된다. Max 모드는 복잡한 알고리즘 설계나 버그 수정 등 고도의 논리력이 필요한 상황에 적합하며, High 모드는 지연 시간에 민감한 실시간 작업에 최적화되어 응답 속도를 높였다. 사용자는 해결해야 할 문제의 복잡도에 따라 추론의 깊이와 자원 소모량을 선택적으로 운용하며 효율성을 관리할 수 있다.
GLM-5.2는 SWE-bench Pro 등 주요 벤치마크에서 GPT-5.5를 상회하며 API 비용과 지역 제한의 제약을 무력화했다. IndexShare 아키텍처로 100만 토큰 컨텍스트의 연산량을 2.9배 줄인 점은 로컬 운용의 실효성을 증명한다.
프론티어급 코딩 모델을 MIT 라이선스로 로컬에 구축해 비용과 보안 문제를 동시에 해결하는 것이 이제 실질적인 선택지가 됐다. 결국 API 의존도를 낮추고 자체 인프라에서 효율을 극대화하는 판단만이 남는다.



