2025년 11월은 최근 LLM(Large Language Model, 거대언어모델) 변화의 기준점이 되었으며, 특히 코딩 에이전트의 실용화와 노트북 실행 모델의 약진이 핵심으로 나타났다. 9월 29일 공개된 Claude Sonnet 4.5를 시작으로 GPT-5.1, Gemini 3, Claude Opus 4.5가 빠르게 교체되며 성능 선두 자리를 다투는 경쟁 구도가 형성되었다.
주목할 점은 단순 벤치마크 수치보다 실제 작업 수행 능력, 특히 코딩 영역에서의 품질 장벽 돌파가 가시화되었다는 점이다. OpenAI와 Anthropic은 검증 가능한 보상 기반 강화학습을 통해 모델이 작성하는 코드의 정확도를 높였으며, 이는 Codex와 Claude Code 같은 하네스(Harness, 실행 환경)와 결합되어 실질적인 생산성 도구로 진화하는 결과를 낳았다. 반면, 일부 실험적 프로젝트들은 기술적 호기심을 충족시켰으나 버그와 안전성 문제로 인해 실제 시장의 필요성을 증명하지 못한 채 소멸하는 양상을 보였다.
2025년 11월 이후 프런티어 모델 및 오픈 가중치 모델 출시 현황
9월 29일 공개된 Claude Sonnet 4.5가 11월 초까지 시장에서 최고 모델로 인정받으며 기준점을 형성했다. 그러나 이후 프런티어 모델의 성능 선두 자리는 세 대형 제공자 사이에서 극도로 짧은 주기로 교체되는 양상을 보였다. GPT-5.1이 등장하며 주도권을 잡았으나 곧 Gemini 3가 이를 대체했고, 이어 GPT-5.1 Codex Max가 다시 성능 우위를 점했다. 최종적으로는 Claude Opus 4.5가 등장해 수개월간 선두를 유지했다. 이러한 급격한 교체 주기는 모델 간의 절대적 성능 격차가 좁아졌으며, 특정 벤치마크나 과제에 따라 우위가 갈리는 파편화된 경쟁 단계에 진입했음을 보여준다.
2월에는 Gemini 3.1 Pro가 공개되며 모델의 성능 평가 방식이 단순 텍스트를 넘어 복잡한 시각적 추론으로 확장됐다. 특히 자전거를 타는 펠리컨 SVG(Scalable Vector Graphics, 확장 가능한 벡터 그래픽) 생성 테스트가 핵심 지표로 부상했다. 펠리컨과 자전거라는 각각의 어려운 개체를 결합하고, 학습 데이터에 존재할 가능성이 낮은 비현실적 상황을 구현해야 한다는 점이 이 테스트의 핵심이다. Gemini 3.1 Pro는 바구니 속 물고기까지 묘사한 정교한 결과물을 내놓으며 기술적 우위를 입증했다. 반면 이러한 결과는 AI 연구소들이 펠리컨 테스트와 같은 특이 과제에 최적화된 학습을 진행했을 가능성을 시사하며, 벤치마크 수치 이면의 실질적 범용성에 대한 논의를 촉발했다.
4월에 접어들며 오픈 가중치 모델은 규모의 확장과 효율성이라는 두 갈래 방향으로 진화했다. Google은 미국 내 오픈 가중치 모델 중 가장 높은 성능을 기록한 Gemma 4 시리즈를 공개하며 시장 점유율을 공고히 했다. 주목할 점은 중국 연구소들의 행보다. GLM(General Language Model, 범용 언어 모델)은 1.5TB라는 압도적인 규모의 GLM-5.1을 공개했다. 이는 실행 가능한 하드웨어 인프라만 확보된다면 프런티어 모델에 근접한 효과를 낼 수 있는 체급을 갖췄음을 의미한다. 반면 Qwen은 극도의 효율성을 추구했다. 20.9GB 규모의 Qwen3.6-35B-A3B는 일반적인 노트북 환경에서 실행 가능함에도 불구하고, 펠리컨 생성 테스트에서 Claude Opus 4.7보다 우수한 결과물을 도출했다. 이는 로컬 실행 모델이 프런티어 모델의 성능 하한선을 빠르게 추격하고 있다는 사실을 데이터로 증명한 사례다.
RLVR 도입에 따른 코딩 에이전트의 품질 임계점 돌파
개발자가 AI 코딩 도구를 사용할 때 가장 많은 시간을 할애했던 영역은 모델이 저지른 기초적인 실수를 수정하는 반복 작업이었다. 기존의 코딩 에이전트는 특정 조건이나 단순한 함수 구현에서만 결과물이 나오는 종종 작동 수준에 머물렀다. 반면 최근의 변화는 이러한 도구를 실제 일상적인 개발 작업에 완전히 위임할 수 있는 대체로 작동 수준으로 끌어올렸다. 주목할 점은 사용자가 더 이상 사소한 문법 오류나 논리적 허점을 메우는 데 시간을 소비하지 않고, 전체적인 아키텍처 설계와 같은 고차원적인 작업에 집중할 수 있는 품질 임계점을 돌파했다는 사실이다. 이는 단순한 편의성 개선이 아니라 도구의 신뢰도 자체가 계단식으로 상승했음을 의미한다.
이러한 품질 향상의 기술적 배경에는 OpenAI와 Anthropic이 집중적으로 투입한 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards, RLVR)이 있다. RLVR은 모델이 생성한 코드가 컴파일러를 통과하는지, 혹은 정의된 테스트 케이스를 정확히 수행하는지와 같은 객관적이고 검증 가능한 지표를 보상으로 활용해 학습시키는 방식이다. 그러나 단순히 학습 알고리즘의 변경에 그치지 않고, 이를 Codex 및 Claude Code와 같은 에이전트 하네스(harness, 모델이 실제 환경에서 코드를 실행하고 결과를 피드백받는 제어 체계)와 밀접하게 결합했다. 이 과정에서 모델은 정답에 가까운 텍스트를 확률적으로 생성하는 단계를 넘어, 실행 결과라는 실질적인 피드백을 통해 스스로 오류를 교정하는 능력을 확보했다. 결과적으로 코드의 정밀도가 비약적으로 상승하며 실무 투입이 가능한 수준의 품질을 구현했다.
프런티어 모델들의 경쟁 속에서 로컬 실행 모델이 보여준 성능 추격 또한 주목할 만한 지점이다. 특히 Qwen3.6-35B-A3B(중국 알리바바 그룹의 오픈 가중치 모델)는 특정 벤치마크에서 기존의 상식을 깨는 결과를 도출했다. 자전거를 탄 펠리컨을 그리는 SVG 생성 테스트에서 이 모델은 20.9GB라는 상대적으로 작은 파라미터 규모에도 불구하고 Claude Opus 4.7보다 우수한 결과물을 생성했다. 반면 이러한 결과는 역설적으로 펠리컨 테스트와 같은 특정 과제가 더 이상 모델의 종합적인 지능을 가늠하는 절대적 척도로서 기능하기 어렵다는 한계를 드러낸다. 노트북 환경에서 구동 가능한 수준의 오픈 가중치 모델들이 프런티어 모델과의 간극을 빠르게 좁히며, 특정 도메인에서는 이미 기대치를 상회하는 효율성을 증명하고 있다는 사실이 데이터로 확인되었다.
OpenClaw 열풍과 로컬 LLM의 실무 적용 가능성
실리콘밸리 주변에서 OpenClaw(개인 AI 비서)를 구동하기 위해 Mac Mini를 구매하려는 수요가 급증하며 품절 사태가 발생했다. 2월에 최종 명칭이 확정된 OpenClaw는 NanoClaw와 ZeroClaw 프로젝트를 포함하는 상위 개념으로, 로컬 환경에서 작동하는 개인용 AI 비서에 대한 시장의 갈증을 증명했다. 일부 개발자들은 이를 새로운 디지털 반려동물에 비유하며 Mac Mini를 해당 AI를 위한 수조로 정의했다. 나아가 이 현상은 영화 스파이더맨 2의 닥터 옥토퍼스처럼 AI로 구동되는 클로가 사용자를 장악할 수 있다는 비유로 확산될 만큼 로컬 LLM에 대한 집착에 가까운 관심을 보였다. 이는 AI의 제어권을 클라우드가 아닌 개인 하드웨어로 완전히 가져오려는 실무적 요구가 하드웨어 소비 패턴의 실질적인 변화로 이어졌음을 시사한다.
반면, 기술적 호기심에서 출발한 실험적 프로젝트들은 실무 적용 단계에서 명확한 한계를 드러냈다. MicroQuickJS를 Python으로 포팅한 구현체인 micro-javascript가 대표적인 사례다. 이 프로젝트는 JavaScript 코드가 micro-javascript 라이브러리로 실행되고, 해당 Python 코드가 다시 Pyodide와 WebAssembly를 거쳐 브라우저 내 JavaScript 환경에서 최종적으로 작동하는 극도로 복잡한 계층 구조를 가졌다. 그러나 이러한 구조적 복잡성은 심각한 버그와 느린 처리 속도, 그리고 안전성 결여라는 치명적인 결과로 이어졌다. 결국 반쯤 완성된 형태의 구현체는 실제 개발 환경에서 요구하는 최소한의 안정성을 확보하지 못했고, 같은 기간 생성된 다른 실험적 프로젝트들과 함께 조용히 은퇴하는 경로를 밟았다.
주목할 점은 노트북에서 실행 가능한 소형 모델들의 성능 향상 속도가 시장의 일반적인 기대치를 크게 상회하고 있다는 사실이다. Qwen3.6-35B-A3B 같은 모델은 20.9GB의 오픈 가중치를 가지며 일반적인 노트북 환경에서 충분히 구동 가능하다. 이 모델은 특정 벤치마크에서 프런티어 모델인 Claude Opus 4.7보다 정교한 펠리컨 SVG를 생성하며 로컬 모델의 실무 적용 가능성을 입증했다. 그러나 이는 동시에 자전거를 탄 펠리컨 생성 테스트가 더 이상 모델의 지능을 변별하는 유효한 벤치마크로서 기능을 하지 못한다는 점을 드러낸다. 로컬 모델의 절대적 성능은 여전히 거대 프런티어 모델에 미치지 못하지만, 특정 도메인 작업에서는 하드웨어 제약을 극복한 효율적인 대안으로 자리 잡으며 개발 환경의 지형을 바꾸고 있다.




