발표에서 확인된 핵심 사실

프로토타이핑 과정에서 예측 불가능하게 증가하는 클라우드 GPU 청구서와 토큰 비용을 어떻게 통제할 것인가. 마이크로소프트는 Microsoft Build 2026에서 소프트웨어 개발자가 클라우드 컴퓨팅 비용을 지불하는 대신 데스크톱에서 직접 AI 모델을 구동하도록 설계된 소형 데스크톱 컴퓨터 Surface RTX Spark Dev Box(서피스 RTX 스파크 개발자용 PC)를 공개했다. 이는 챗GPT 출시 이후 3년 반 동안 AI 산업의 경제적 기준이 된 토큰당 과금 모델에 정면으로 도전하는 움직임이다.

해당 기기는 단 한 번의 클라우드 API 호출 없이 1,200억 개 이상의 파라미터를 가진 대규모 AI 모델을 로컬에서 로드하고 구동할 수 있다. 특히 10만 토큰의 컨텍스트 처리 시 필수적인 40~50GB의 KV 캐시(Key-Value Cache, 추론 시 이전 토큰 정보를 저장하는 메모리 영역) 요구량을 128GB 통합 메모리 풀로 해결했다. 개발자는 데이터를 외부로 전송하지 않고도 대형 모델과 직접 상호작용하며 로컬 환경에서 모델을 최적화할 수 있다.

결과적으로 반복적인 프로토타이핑에 소요되는 비용을 가변적인 토큰 과금 방식에서 고정적인 하드웨어 구매 비용으로 전환했다. 이를 통해 클라우드 사용량에 따른 비용 변동성을 제거하고 개발 환경의 지출 예측 가능성을 확보했다.

기존 방식과 달라진 지점

88.45%라는 수치는 기존 최상위 모델들의 성적을 상회한다. M-DASH(Multi-model Agentic Scanning Harness, 다중 모델 에이전트 스캐닝 하네스)는 Cyber Gym 벤치마크에서 이 점수를 기록하며 리더보드 최상단을 차지했다. Anthropic의 Mythos preview가 83.1%, OpenAI의 GPT-5.5가 81.8%를 기록한 것과 대조적이다. 자체 프런티어 모델 없이 타사에서 제공하는 공개 범용 모델들을 조합해 구축한 시스템이 각사의 최첨단 모델 성능을 앞섰다.

실제 Windows 코드 검증 과정에서 16개의 취약점이 발견됐다. 이 중 4개는 비밀번호 없이도 원격 침입이 가능할 수 있는 심각(critical) 등급으로 분류됐다. 해당 취약점들은 5월 패치 화요일(May Patch Tuesday) 업데이트에 반영될 예정이다.

ARM 기반 CPU와 Blackwell GPU를 하나의 칩으로 통합한 RTX Spark SoC(System on Chip, 시스템 온 칩)를 채택했다. 기존 윈도우 PC의 CPU, 외장 GPU, 그래픽 메모리, 시스템 RAM의 4가지 구성 요소를 하나의 칩과 통합 메모리 풀로 압축했다. 이를 통해 일반 게이밍 노트북의 GPU 메모리 한계인 약 24GB를 뛰어넘는 메모리 접근성을 확보했다.

GPT-5.5는 Opus 4.7 대비 토큰 사용량을 절반으로 줄이고 실행 시간은 절반 미만, 비용은 3분의 1 수준으로 낮췄다. 이미지 생성 모델 MAI image 2.5는 Arena.ai 리더보드에서 GPT Image 2와 Gemini 3.1 Flash에 이어 3위에 올랐다. xAI의 Grok 5는 일론 머스크가 인수한 Cursor와의 연결을 통해 AI 코딩 능력을 강화했다. Microsoft 365 Copilot은 인라인 포맷팅이 가능한 긴 프롬프트 박스를 도입하고 앱 내 데이터를 직접 가져와 차트와 그래프를 생성하는 기능을 추가했다.

구글이 사용자 대신 행동을 수행하는 새로운 AI 에이전트

사내 테스트를 진행하는 직원들의 화면에서 챗봇의 역할이 바뀌고 있다. 구글은 Gemini(제미나이) 앱의 직원 전용 버전에서 'Remy'라는 AI 에이전트를 도그푸딩(dogfooding, 자사 제품을 직접 사용하는 테스트) 중이다. 프롬프트에 응답하는 수준을 넘어 사용자를 대신해 24시간 능동적으로 작업을 수행하는 개인 에이전트로 정의된다. 단순한 기능 추가가 아닌 행동 주체로의 전환이다.

공격적인 가격 인하와 기능 업데이트가 경쟁사의 출시 일정을 압박한다. DeepSeek는 가격을 추가로 낮추는 동시에 생각하는 과정에서 특정 지점을 가리키는 '디지털 손가락' 비전 기능을 에이전트에 추가했다. 이러한 행보는 OpenAI가 새로운 GPT 버전을 서둘러 출시하게 만든 원인으로 거론된다.

인프라 조립과 운영 단계로 AI 투자의 자본이 이동하고 있다. 1988년 상장 후 2013년 244억 달러 가치로 상장 폐지되었다가 2018년 재상장한 델(Dell)은 NVIDIA GPU 기반의 서버와 데이터 센터 랙을 공급하며 AI 기업으로 피벗했다. 최근 두 차례의 실적 발표 이후 주가가 80% 급등했으며 올해 상승률은 240%에 달한다.

비용 예측 가능성을 위해 개발 환경을 로컬과 클라우드로 분리하는 전략이 쓰인다. 마이크로소프트는 프로토타입 단계에서는 로컬 하드웨어를 쓰고 확장 단계에서만 Azure(애저) 클라우드를 사용하는 방식을 유도해 GPU 비용 문제를 해결하려 한다. 데이터 커브(Data Curve)의 Deep Suite(딥 스위트)는 저장소 파싱과 다중 파일 작업 등 실제 워크플로우를 검증하며, 훈련 데이터 오염을 막기 위해 솔루션을 GitHub에 업로드하지 않는다.

투자금과 참여 투자자가 보여주는 신호

전문직이 AI 도구를 쓸 때 가장 답답한 점은 내 업무의 특수성을 이해하지 못하는 범용 툴의 한계다. 세계 최대 로펌 Kirkland & Ellis(커클랜드 앤 엘리스)는 자체 AI 플랫폼 구축에 5억 달러를 투입한다. 올해 1억 달러를 우선 집행하며 향후 3~4년간 투자를 이어갈 계획이다. 이는 외부 AI 도구 라이선스 비용과 별개로 책정된 예산이다. Harvey(하비) 같은 로펌 래퍼 기업이 중개인을 배제하고 직접 서비스를 제공할 가능성에 대비해 지식을 내재화하려는 전략이다.

인프라 계층에서도 특정 제조사에 묶이지 않으려는 설계가 적용된다. 델(Dell)은 GPU 제조사가 아니지만 랙과 냉각 시스템을 통해 NVIDIA GPU를 실제 작동하게 만드는 통합 솔루션을 제공한다. 마이크로소프트의 M-DASH(모델 불가지론적 설계 플랫폼)는 설정 변경만으로 새로운 모델을 도입해 A/B 테스트를 수행할 수 있다. 모델이 바뀌어도 기존의 엔지니어링 작업, 플러그인, 보정 값들은 그대로 유지된다.

모델 성능의 개선과 결함은 동시에 나타난다. Anthropic의 Claude Opus 4.8은 4.7 대비 코딩, 추론, 정직성 측면에서 소폭 향상되었다. 자율 작업 범위가 늘어난 Mythos 1(미토스 1)이 등장했으나, Project Glasswing(프로젝트 글래스윙)을 통해 수천 개의 심각한 취약점이 노출되었다. Claude Code는 프롬프트를 하위 작업으로 분할해 병렬 에이전트들이 서로 반박하며 최적의 답을 도출하는 다이내믹 워크플로우를 도입했다. 다만 동기와 비동기 지원이 모두 필요한 작업에서 하나를 누락하는 등 다중 파트 프롬프트 준수 오류가 발생하며, 이는 OpenAI 모델에서는 거의 나타나지 않는 패턴이다.

실제 엔지니어링 작업을 반영한 새로운 AI 코딩 벤치마크

매번 예측 불가능하게 치솟는 클라우드 GPU 청구서와 토큰 비용을 완전히 제거할 방법은 없을까. Surface RTX Spark Dev Box(서피스 RTX 스파크 개발자 박스)는 Nvidia(엔비디아)의 Blackwell(블랙웰) 아키텍처 기반 RTX Spark 프로세서와 128GB 통합 메모리를 탑재했다. CPU와 GPU가 메모리 풀을 동적으로 공유하며 1페타플롭의 AI 연산 성능을 제공한다. 금속 3D 프린팅으로 구현한 복잡한 타공 구조의 상단 패널과 알루미늄 섀시가 패시브 히트싱크 역할을 수행해 냉각 효율을 높였다. 반복적인 프로토타이핑 비용을 가변적인 토큰 비용에서 고정적인 하드웨어 비용으로 전환해 비용 예측 가능성을 확보한 설계다.

단순한 정답 암기나 쉬운 과제로 모델 성능을 과대평가하는 기존 벤치마크의 한계를 넘기 위해 Data Curve(데이터 커브)가 'Deep Suite(딥 스위트)'를 출시했다. 프롬프트는 짧고 자연스럽게 유지하되 해결을 위해 더 많은 양의 코드를 작성해야 하는 과제들을 처음부터 새로 구축했다. 측정 결과 GPT-5.5가 70%의 점수로 가장 높았으며 GPT-5.4(56%)와 Opus 4.7(54%)이 뒤를 이었다. Kimi 2.6는 24%, DeepSeek V4는 8%에 그쳐 상위 모델들과의 격차가 뚜렷했다. 실제 엔지니어링 작업 환경에서의 구현 능력이 모델 간 변별력을 가르는 핵심 지표가 됐다.

하드웨어 성능 외에도 전력과 냉각 시스템, 배선 부족이 GPU 활용의 실질적인 병목이 되고 있다. Microsoft(마이크로소프트)는 수천억 달러 규모의 GPU를 구매하고도 인프라 구축 문제로 장비를 창고에 방치한 사례가 있다. 특정 데이터 기반의 GPT(블룸버그 GPT)가 범용 모델의 발전에 밀려 빠르게 무용지물이 된 점은 기업 전용 모델 구축의 리스크를 보여주는 사례다. 이에 Kirkland & Ellis(커클랜드 앤 엘리스)는 180명의 외부 전문가를 투입해 순수 내부용 지식 베이스 플랫폼을 구축 중이다. 한편 Microsoft가 출시한 MAI image 2.5(MAI 이미지 2.5)는 Arena.ai(아레나 AI) 리더보드 3위를 기록하며 텍스트 렌더링과 시각적 추론 능력을 강화했다.

프로토타이핑 과정의 클라우드 GPU 청구서와 토큰 비용은 예측 불가능한 변수다. Surface RTX Spark Dev Box는 블랙웰 아키텍처 기반 RTX 스파크 SoC와 128GB 통합 메모리 풀을 통해 1200억 개 이상의 파라미터 모델을 로컬에서 구동한다.

반복적인 실험 비용을 가변적인 토큰 비용에서 고정적인 하드웨어 비용으로 전환하면 지출 예측 가능성이 확보된다. AI 개발의 경제성은 이제 API 호출 횟수가 아닌 로컬 인프라의 효율성에서 결정된다.