토큰 비용 10배 절감 — 엔비디아·MS, 윈도우부터 클라우드까지 에이전트 풀스택 공개

RTX Spark와 DGX Station, 윈도우 기반 에이전트 하드웨어의 변화

모델 성능은 충분하지만 이를 구동할 서버가 없어 프로젝트를 포기하는 개발팀이 많다. 엔비디아와 마이크로소프트는 윈도우 디바이스부터 클라우드까지 연결되는 에이전트용 통합 풀스택을 구축해 이 간극을 메웠다. 그 일환으로 공개된 RTX Spark(개인용 AI PC 전용 하드웨어)는 AI 성능 1 petaflop과 최대 128GB의 통합 메모리를 탑재했다. CUDA, RTX, DLSS, TensorRT 등 30년의 기술 스택이 적용된 이 시스템은 올가을 마이크로소프트 서피스, ASUS, 델, HP, 레노버, MSI를 통해 공급된다.

기업용 워크플로우를 위한 DGX Station for Windows(윈도우 기반 데스크톱 AI 슈퍼컴퓨터)는 GB300 Grace Blackwell Ultra를 탑재해 최대 748GB의 코히런트 메모리와 20 petaflops의 FP4 성능을 낸다. 4분기 중 ASUS, 델, 기가바이트, HP, MSI, 슈퍼마이크로를 통해 출시될 예정이다. 고용량 코히런트 메모리는 대규모 모델의 가중치를 효율적으로 배치해 추론 지연 시간을 물리적으로 단축한다.

DGX Station은 최대 1조 파라미터 규모의 프론티어 모델을 윈도우 환경에서 네이티브로 구동할 수 있다. 이는 데이터 보안이 중요한 기업이 외부 클라우드 연결 없이 고성능 에이전트를 로컬에서 운용할 수 있음을 뜻한다. 이번 달 출시되는 NVIDIA Nemotron 3 Ultra는 코딩, 연구, 기업 워크플로우에 최적화된 오픈 프론티어 추론 모델로, 윈도우 기반 하드웨어 라인업에서 추론 효율을 극대화하도록 설계됐다.

개인용 RTX Spark부터 기업용 DGX Station까지 이어지는 라인업은 윈도우 생태계 내에서 에이전트 구동 환경을 통합했다. 개발자는 모델의 파라미터 크기와 데이터 거버넌스 요구 수준에 따라 온프레미스, 하이브리드, 클라우드 중 최적의 환경을 선택하며, 토큰당 비용과 추론 속도라는 정량적 지표를 기준으로 인프라를 결정하게 된다.

OpenShell 샌드박스와 Cosmos 3의 물리적 AI 구현 방식

에이전트에게 시스템 권한을 부여할 때 발생하는 보안 문제는 NVIDIA OpenShell이 해결한다. OpenShell은 에이전트별로 독립된 샌드박스 컨테이너를 실행하는 런타임 구조를 도입했다. Apache 2.0 라이선스의 오픈소스로 공개된 이 시스템은 모든 outbound 호출이 파일, 네트워크, 자격 증명에 접근하기 전 정책 기반의 평가 과정을 거치게 한다. 특히 정책을 코드로 작성해 저장소에서 버전 관리하고 실시간으로 업데이트함으로써 보안 설정을 즉각 반영하고 변경 이력을 추적한다. 모델 종류와 관계없이 온프레미스, 하이브리드, 클라우드 환경 모두를 지원하며, GitHub Copilot에 통합되어 에이전트가 격리된 환경에서 자율적으로 작업을 수행하게 만든다.

물리적 세계를 인식하고 행동하는 AI를 위해 NVIDIA Cosmos 3는 Mixture-of-Transformers(MoT) 구조를 채택했다. 이 옴니모델은 비전 추론, 세계 시뮬레이션, 액션 생성 기능을 단일 모델 내에서 통합 수행한다. 로봇이나 자율주행차, 산업 시스템이 주변 환경을 시각적으로 인지하고 다음 상황을 예측하며 물리적 동작을 계획·실행하는 전 과정을 처리한다. Cosmos 3는 비전 추론과 세계 생성, 액션 생성 분야의 주요 벤치마크에서 오픈 모델 중 1위를 기록했으며, 이를 통해 에이전트를 디지털 환경에서 실제 산업 현장의 물리적 장비로 확장 배포할 수 있다.

클라우드 환경의 실행 지연은 소프트웨어 스택 최적화로 해결한다. NVIDIA Dynamo는 AKS(Azure Kubernetes Service) 상에서 모델의 콜드 스타트 시간을 가속화해 에이전트의 즉각적인 반응성을 확보한다. 이와 함께 도입된 NVIDIA Grove는 쿠버네티스 네이티브 방식의 분산 추론 오케스트레이션을 수행하여, 여러 노드에 분산된 GPU 자원을 효율적으로 할당하고 대규모 에이전트 군집 작동 시의 성능 저하를 막는다.

6배 빠른 SQL 실행과 10배의 추론 효율, 수치로 본 성능 격차

마이크로소프트 패브릭 데이터 웨어하우스에 엔비디아 GPU 가속을 적용한 결과, SQL 실행 속도가 CPU 기반 베이스라인 대비 최대 6배 향상됐다. 특히 여러 에이전트가 동시에 데이터를 요청하는 고동시성 워크로드 환경에서는 타사 주요 클라우드 데이터 웨어하우스 제공사보다 최대 7배 빠른 처리 속도를 기록했다. 데이터 레이어의 처리 속도가 상승하면서 에이전트가 실시간으로 방대한 데이터를 조회하고 판단하는 주기가 단축됐다.

인프라 전력 효율은 NVIDIA 베라 루빈(NVIDIA Vera Rubin) 플랫폼을 통해 개선됐다. 베라 루빈은 메가와트당 추론 처리량을 최대 10배까지 증가시켰으며, 기존 블랙웰(Blackwell) 아키텍처와 슬롯 호환성을 갖춰 애저(Azure) 인프라에 즉시 통합 가능하다. 전력 소모 대비 연산 처리량의 증가는 동일한 전력 예산 내에서 처리할 수 있는 토큰의 양이 10배 늘어남을 의미한다.

토큰 비용의 하락은 에이전트의 자율성을 확장한다. 베라 루빈 플랫폼 도입 시 에이전트 토큰당 비용은 기존 대비 한 자릿수(order of magnitude) 단위로 절감된다. 비용 부담으로 추론 단계를 최소화했던 이전과 달리, 이제는 복잡한 다단계 추론이나 장기간 실행되는 에이전트 워크플로우를 상용 서비스 수준으로 구현할 수 있다. 전력 효율 향상과 데이터 처리 속도 개선이 결합되어 에이전트 운영의 총소유비용(TCO)을 낮춘다.

GitHub Copilot 통합과 온프레미스 Foundry Local의 확장성

이러한 비용 효율성과 성능 향상은 실제 대규모 배포 환경에서 구체적인 확장성으로 이어진다. 데이터가 클라우드로 나가는 것을 꺼리는 환경을 위해 Microsoft는 RTX PRO 6000 Blackwell Server Edition 플랫폼 기반의 Foundry Local on Azure Local을 도입했다. 이 환경은 vLLM 런타임과 멀티노드 배포를 지원해 단일 서버의 메모리 한계를 넘어 대규모 모델의 로컬 추론을 가능하게 한다. 기업은 데이터가 위치한 온프레미스, 하이브리드, 혹은 소버린(Sovereign) 환경에서 고성능 AI 워크로드를 직접 실행할 수 있다.

물리적 인프라는 단일 팩토리 수준으로 확장됐다. Fairwater Wisconsin AI Factory는 수십만 대의 NVIDIA Grace Blackwell 시스템을 단일 팩토리로 연결했으며, MRC(Multipath Reliable Connection) 전송 프로토콜을 적용해 데이터 전송 효율을 높였다. 조지아주의 AI 팩토리와도 연결되어 최상위 프론티어 모델 구동을 위한 분산 AI 시스템을 구축했다. 전력, 냉각, NVIDIA Spectrum-X 이더넷 최적화를 통해 물리적 인프라의 결합도가 추론 처리량을 결정하는 구조를 만들었다.

에이전트 서비스의 모델 선택지는 Foundry Agent Service를 통해 제공된다. Anthropic Claude, OpenAI, Hermes 모델을 지원하며, 특히 Claude 모델은 Azure 상의 GB300 Blackwell Ultra 시스템에서 네이티브로 구동된다. 기업은 Azure의 내장 ID 및 거버넌스 체계 위에서 워크플로우 특성에 맞는 최적의 모델을 조합해 에이전트 시스템을 구성함으로써 벤더 종속성을 줄이고 성능 최적화 경로를 다양화할 수 있다.

국내 제조·에너지 산업의 저지연 에이전트 도입 및 비용 최적화

국내 제조 및 에너지 기업은 데이터 주권과 보안을 위해 Foundry Local on Azure Local을 활용한다. 기업은 NVIDIA Nemotron 오픈 모델 제품군을 결합해 데이터가 상주하는 온프레미스, 하이브리드, 혹은 소버린 환경에 고성능 AI 워크로드를 직접 구축함으로써 외부 유출 없이 데이터 거버넌스를 유지한다.

산업 현장의 공정 제어 에이전트는 밀리초 단위의 응답 속도가 생산성과 안전으로 직결된다. Foundry Local on Azure Local의 vLLM 런타임과 멀티노드 배포 지원은 제조 공정의 실시간 최적화나 에너지 그리드의 즉각적인 부하 조절 같은 저지연(latency-sensitive) 시나리오에서 추론 병목을 제거한다. 데이터 센터와 현장 장비 사이의 물리적 거리를 줄여 네트워크 지연을 없애고 실시간 제어권을 확보하는 구성이다.

물리적 AI 구현을 위해 엔비디아는 Cosmos 3를 Azure Physical AI Toolchain에 통합했다. 개발자는 이 플랫폼에서 로봇, 자율주행차, 산업 시스템의 시뮬레이션, 학습, 배포를 단일 워크플로우로 수행한다. 이를 통해 가상 시뮬레이션과 실제 공정 제어 사이의 간극을 좁히고 물리적 환경의 인지, 추론, 계획, 실행 과정을 가속한다.

국내 산업 현장의 에이전트 도입은 데이터가 머무는 위치와 응답 속도의 최적화 문제로 귀결된다. 온프레미스 기반의 Foundry Local과 vLLM 런타임의 조합은 보안과 속도라는 상충하는 요구사항을 동시에 충족하는 실무적 대안이다. 결국 인프라 배치 위치와 런타임 효율성이 에이전트의 현장 투입 가능 여부를 결정한다.

모델 성능의 상향 평준화에도 불구하고 실제 에이전트 구축의 병목은 인프라 설정과 보안 런타임 확보에 있었다. 엔비디아와 MS는 윈도우 디바이스부터 클라우드까지 연결되는 통합 풀스택을 통해 이 제약을 제거했다. 10배의 추론 효율을 내는 베라 루빈 플랫폼과 1조 파라미터 모델을 구동하는 DGX Station for Windows가 그 물리적 기반이다.

이제 판단 기준은 모델의 성능이 아니라 구동 환경의 최적화로 이동한다. 온프레미스, 하이브리드, 클라우드 중 어떤 환경이 비용과 성능 면에서 유리한지 선택하는 것이 에이전트 도입의 실질적인 성패를 결정한다.