Grok V9, Cursor 데이터 보강으로 1.5T 파라미터 코딩 모델 된다

5월 15일, X(트위터) 타임라인.

일론 머스크가 Grok의 최신 훈련 현황을 직접 올리며 전 세계 개발자들의 시선을 끌어모은다. 0.5T 파라미터의 V8을 넘어, 방금 훈련을 마쳤다는 1.5T 규모의 V9 모델 수치가 화면에 선명하게 찍혀 있다.

단순히 모델 크기를 키웠다는 자랑이 아니다. 머스크는 'pre-training'이라는 업계 표준 용어 대신 '보강 훈련(supplemental training)'이라는 생소한 단어를 꺼내며, 여기에 Cursor(커서, AI 기반 코드 편집기)의 데이터를 쏟아붓겠다고 선언했다.

이 장면 뒤에는 단순한 협업을 넘어선 거대한 자본의 움직임과 데이터 쟁탈전이 숨어 있다.

Grok V9, 1.5T 파라미터와 Blackwell 아키텍처의 결합

일론 머스크가 5월 15일부터 17일까지 X(트위터)를 통해 공개한 수치는 이전 모델과 확연히 갈린다. 기존의 V8 파운데이션 모델이 0.5T 파라미터를 가졌다면, 이번에 훈련을 마친 V9는 1.5T 파라미터로 규모를 정확히 3배 키웠다. 여기서 파라미터란 인공지능이 학습 과정에서 데이터를 통해 조정하는 가중치이자 지식을 저장하는 최소 단위다. 쉽게 말하면 인공지능의 뇌 속에 있는 뉴런의 연결 고리가 3배 더 촘촘해진 셈이다. 비유하자면 기존 모델이 500페이지짜리 백과사전이었다면, V9는 1,500페이지로 분량이 늘어난 더 두꺼운 백과사전이 된 것과 같다. 모델의 체급이 커지면 더 복잡한 문맥을 파악하고 정교한 논리 전개를 수행할 수 있는 기본 능력이 향상된다. 이는 단순히 데이터를 더 많이 읽힌 것이 아니라, 데이터를 담아낼 수 있는 그릇의 크기 자체를 키웠다는 점에서 의미가 있다.

하드웨어의 설계 방식인 아키텍처의 변화도 주목해야 할 지점이다. V8이 호퍼(Hopper) 아키텍처 기반으로 학습되었다면, V9는 최신 블랙웰(Blackwell) 아키텍처에 최적화되어 설계되었다. 아키텍처란 쉽게 말해 컴퓨터 칩이 데이터를 처리하는 내부 도로의 구조나 엔진의 설계도와 같다. 비유하자면 좁은 2차선 도로에서 달리던 자동차가 탁 트인 8차선 고속도로로 옮겨간 것과 비슷하다. 도로가 넓어지면 같은 양의 데이터를 처리하더라도 병목 현상이 줄어들고 처리 속도는 비약적으로 빨라진다. V9는 단순히 최신 칩을 쓴 것이 아니라, 블랙웰이라는 새로운 설계 방식이 가진 특성에 맞춰 모델의 연산 경로를 최적화함으로써 하드웨어가 낼 수 있는 최대 성능을 끌어내도록 만들어졌다.

이러한 거대 모델을 실제로 구현하고 훈련시키기 위해 투입된 기반 시설이 바로 xAI의 콜로서스(Colossus) 슈퍼컴퓨터다. 콜로서스는 엔비디아의 H100 GPU 100만 장을 사용하는 것과 맞먹는 압도적인 연산 능력을 갖춘 컴퓨팅 인프라다. 1.5T라는 방대한 파라미터를 효율적으로 학습시키려면 일반적인 서버 수준으로는 상상할 수 없는 전력과 연산 자원이 필요하며, 콜로서스 같은 초거대 인프라가 뒷받침되어야만 가능하다. 이는 단순히 계산기가 빠른 것을 넘어, 수만 개의 칩이 하나의 거대한 뇌처럼 유기적으로 움직이며 데이터를 주고받는 고도의 네트워크 기술이 결합된 결과다. 결국 V9는 모델 규모의 확장이라는 소프트웨어적 진화와 블랙웰이라는 하드웨어적 혁신, 그리고 콜로서스라는 인프라의 물량이 결합되어 기본 체급 자체를 높인 모델이다. https://x.com/elonmusk

'단순 코드'와 '행동 데이터'의 차이, Cursor 시너지의 핵심

개발자가 코드 에디터에서 마주하는 결과물은 완성된 코드 한 줄이지만, 그 결과에 도달하기까지 거치는 수많은 시행착오는 그동안 데이터로 기록되지 않고 사라졌다. 이번 업데이트에서 먼저 바뀐 건 도구 연결 방식이다. xAI는 Grok V9 모델의 성능을 극대화하기 위해 보강 훈련(supplemental training) 단계에 커서(Cursor, AI 기반 코드 에디터)의 데이터를 투입하기로 결정했다. 개발팀이 공개한 수치는 여기서 갈린다. 기존 모델들이 주로 완성된 오픈소스 코드나 정제된 라이브러리 문서를 학습했다면, 이번에 도입되는 데이터는 개발자가 실시간으로 코드를 수정하고, 버그를 마주하고, 테스트를 반복하며 도출한 모든 과정이 담긴 날것의 기록이다.

비유하자면 기존의 AI 모델들이 요리책을 수천 권 읽고 요리를 배웠다면, 커서의 데이터는 일류 셰프가 주방에서 칼을 쥐고 재료를 다듬으며 실수를 수정하는 모든 움직임을 1인칭 시점으로 촬영한 영상과 같다. 커서가 보유한 데이터에는 사용자의 실시간 편집 행동, 작성 중 발생한 테스트 결과, 시스템 로그, 그리고 작업 중인 화면의 스크린샷까지 포함되어 있다. 이는 단순한 코드 텍스트를 넘어 개발자가 어떤 상황에서 어떤 의도로 코드를 수정하는지 보여주는 행동 데이터다. 안스로픽(Anthropic, AI 연구 기업)의 클로드(Claude)나 오픈에이아이(OpenAI, AI 연구 기업)의 코덱스(Codex)가 정적인 코드 데이터에 집중할 때, xAI는 개발자의 사고 흐름을 추적하는 동적인 데이터를 학습의 핵심 재료로 삼는 전략을 택했다.

흥미로운 점은 V9 모델이 커서 데이터를 투입하기 전에도 이미 매우 훌륭한 성능을 보이고 있다는 사실이다. 이는 모델 자체가 가진 파라미터 규모와 블랙웰(Blackwell, 엔비디아의 차세대 GPU 아키텍처) 기반의 최적화가 이미 완성 단계에 이르렀음을 의미한다. 하지만 보강 훈련은 모델의 지능을 한 단계 더 끌어올리는 정교화 과정이다. 개발자가 코드를 작성하다가 막혔을 때 에디터가 단순히 다음 코드를 예측하는 수준을 넘어, 왜 여기서 오류가 발생했는지, 어떤 방식으로 수정해야 가장 효율적인지를 제안하는 에이전트의 역량은 바로 이 행동 데이터에서 나온다. 수백만 명의 개발자가 남긴 코딩의 궤적은 모델이 인간 개발자의 의도를 정확히 파악하고 협업하는 데 필요한 가장 비싼 자산이 된다.

결국 이번 데이터 통합은 단순한 기술적 협업을 넘어 모델이 인간의 코딩 문법을 배우는 단계를 지나 코딩의 맥락을 이해하는 단계로 진입했음을 시사한다. 기존 모델들이 정답지 위주로 학습했다면, 커서의 데이터를 학습한 V9는 개발자가 정답에 도달하기 위해 겪는 모든 우여곡절을 학습한다. 이러한 데이터의 차이는 에이전트가 개발자의 의도를 얼마나 정확히 파악하고 제어권을 행사할 수 있는지 결정짓는 핵심 변수가 된다. 개발자가 바로 체감하는 변화는 응답 속도보다 모델이 제시하는 코드의 맥락 유지와 문제 해결 능력의 정교함에서 나타날 것이다.

600억 달러 규모의 베팅, xAI가 노리는 코딩 에이전트 시장

SpaceX(xAI와 합병)가 2026년 4월에 체결한 Cursor(AI 기반 코드 편집기)와의 옵션 계약은 규모부터 압도적이다. 연내에 600억 달러를 들여 회사를 통째로 인수할 권리를 갖거나, 협업 비용으로 100억 달러를 지불하는 조건이다. 단순한 파트너십을 넘어 사실상 인수 전 단계의 강력한 결속력을 확보한 셈이다. 자본력을 바탕으로 시장의 핵심 도구를 빠르게 내재화하려는 머스크의 전략이 그대로 드러나는 지점이며, 이는 단순한 투자를 넘어 시장 지배력을 단숨에 확보하려는 계산이다.

인적 자원의 이동은 더 구체적이고 공격적이다. Cursor의 핵심 설계자인 시니어 엔지니어 앤드류 밀리치(Andrew Milich)와 제이슨 긴즈버그(Jason Ginsberg)가 xAI로 자리를 옮겨 일론 머스크에게 직접 보고하는 체계를 갖췄다. 비유하자면 업계 최고의 레시피를 가진 메인 셰프들을 영입해 주방의 전권을 맡기고 총괄 책임자가 직접 진두지휘하는 것과 같다. 중간 관리 단계를 생략하고 핵심 인력이 결정권자와 바로 연결됨으로써 기술적 노하우가 모델 훈련에 반영되는 속도가 극대화된다.

두 회사의 관계는 이미 칩 임대라는 실무적 연결고리가 있었다. Cursor가 자체 모델인 컴포저(Composer, 코드 생성 및 편집 도구)를 학습시키기 위해 xAI의 칩 수만 장을 빌려 쓰던 관계가 이번 계약으로 공식화됐다. 쉽게 말하면 하드웨어 인프라와 소프트웨어 응용 계층이 하나로 합쳐지는 과정이다. xAI의 콜로서스(Colossus, 대규모 GPU 클러스터) 슈퍼컴퓨터라는 거대한 엔진에 Cursor의 사용자 배포망이라는 바퀴가 달린 꼴이다. 컴퓨팅 파워와 실제 사용 환경이 결합하며 학습과 배포의 순환 고리가 완성되며 모델의 최적화 속도가 비약적으로 상승하는 구조를 갖췄다.

여기서 xAI가 진짜 노리는 것은 단순한 코드 뭉치가 아니다. Cursor가 보유한 수백만 개발자의 실시간 편집 행동, 테스트 결과, 로그, 스크린샷 같은 코딩 행동 데이터(Coding Behavior Data)다. 이는 깃허브 같은 저장소에 올라온 정적인 코드에서는 절대 얻을 수 없는 동적인 학습 데이터다. 개발자가 어느 지점에서 오타를 내고, 어떤 논리적 오류를 수정하며, 최종적으로 어떤 결과물을 도출하는지의 전 과정을 학습하는 것이다. 이러한 데이터는 스스로 코드를 짜고 실행하며 오류를 잡는 코딩 에이전트(Coding Agent, 자율적 소프트웨어 개발 AI)를 만들기 위한 가장 비싼 재료가 된다. 앤스로픽의 클로드(Claude)나 오픈에이아이의 코덱스(Codex)가 선점한 코딩 시장에서 xAI가 가장 빠르게 격차를 좁히고 추월하기 위해 던진 승부수다.

Grok V9, Cursor 데이터 보강으로 1.5T 파라미터 코딩 모델 된다

Grok V9, 1.5T 파라미터와 Blackwell 아키텍처의 결합

'단순 코드'와 '행동 데이터'의 차이, Cursor 시너지의 핵심

600억 달러 규모의 베팅, xAI가 노리는 코딩 에이전트 시장

관련 기사