RTX Spark와 DGX Station: 1페타플롭 연산력의 로컬 AI
클라우드 AI 서비스는 구독료 외에 데이터 유출이라는 보안 리스크를 동반한다. 기업 기밀이나 개인 파일을 외부 서버에 업로드할 때 발생하는 불안감은 온디바이스 AI로의 전환을 가속하는 실질적 동인이다. 엔비디아는 GTC 타이베이(NVIDIA GTC Taipei) COMPUTEX 행사에서 데이터가 외부로 나가지 않는 로컬 환경에서 에이전트를 구동해 보안 리스크를 차단하는 하드웨어 라인업을 공개했다.
RTX Spark(개인용 AI 에이전트 전용 윈도우 PC)는 1페타플롭의 AI 연산력과 128GB의 통합 메모리를 탑재했다. 온디바이스 에이전트가 요구하는 막대한 컴퓨팅 수요를 로컬에서 처리하기 위한 사양이다. 제품은 하루 종일 사용 가능한 배터리 수명을 갖춘 슬림 노트북과 전력 효율을 높인 데스크톱 형태로 제공된다.
전문가와 개발자를 위한 고성능 라인업은 더 공격적인 사양을 갖췄다. NVIDIA DGX Station for Windows(윈도우 기반 데스크톱 슈퍼컴퓨터)는 데이터센터급 GPU와 CPU를 탑재해 추론 성능을 극대화했다. 윈도우 환경의 관리 편의성과 호환성을 유지하면서 서버급 연산력을 책상 위로 옮긴 형태다. 리눅스 환경과 CUDA(엔비디아 병렬 컴퓨팅 플랫폼) 생태계가 필요한 개발자에게는 NVIDIA DGX Spark를 제공해 로컬에서 에이전트를 상시 구동하고 최적화할 수 있는 환경을 구축했다.
OpenShell과 Windows 보안 프리미티브: 에이전트 격리 및 제어 구조
엔비디아와 마이크로소프트는 사용자가 PC 내에서 에이전트를 완전히 통제할 수 있도록 하드웨어 수준의 제어 레이어를 구축했다. 마이크로소프트의 윈도우 보안 프리미티브(Windows Security Primitives)가 ID 인증, 컨테이너 격리, 정책 기반의 엔드투엔드 보안 기능을 제공해 에이전트가 운영체제의 핵심 영역에 접근하는 것을 차단한다.
엔비디아 오픈쉘(NVIDIA OpenShell) 런타임은 이 격리된 환경 위에서 세부 제어권을 행사한다. 오픈쉘은 에이전트가 읽고 쓸 수 있는 파일 경로와 실행 가능한 명령어를 정의하는 권한 관리자 역할을 한다. 사용자가 설정한 프라이버시 정책에 따라 민감한 정보가 포함된 쿼리는 외부망으로 보내지 않고 로컬 모델로 즉시 라우팅하며, 클라우드 모델 사용 시에는 개인 식별 정보를 마스킹 처리해 전송한다.
리눅스와 WSL(Windows Subsystem for Linux) 환경을 지원하는 니모클로(NemoClaw) 설치 프로그램은 설치와 동시에 자동 샌드박싱을 수행해 에이전트가 독립된 가상 환경에서만 동작하게 만든다. 이는 호스트 시스템의 파일을 보호하면서 헤르메스 에이전트(Hermes Agent) 같은 외부 모델을 안전하게 구동하기 위한 조치다. 오픈클로(OpenClaw)와 헤르메스 에이전트 개발팀은 이러한 보안 레이어를 윈도우 전용 앱에 직접 통합해 사용자가 로컬 파일의 시맨틱 검색이나 앱 간 워크플로우 제어 권한을 실시간으로 부여하고 회수할 수 있게 했다.
이러한 보안 체계 위에서 실제 에이전트가 원활하게 작동하려면, 추론 속도를 획기적으로 높이는 최적화 기술이 필수적이다.
MTP와 NVFP4: llama.cpp 및 vLLM 기반 추론 성능 가속
엔비디아는 llama.cpp(로컬 LLM 추론 라이브러리) 커뮤니티와 협력해 MTP(Multi-Token Prediction, 다중 토큰 예측) 기능을 도입했다. MTP는 작은 초안 모델이 여러 토큰을 먼저 제안하고 타겟 모델이 이를 한 번에 검증하는 투기적 디코딩 기술이다. 이 최적화로 Qwen 3.6 및 3.5 27B 모델의 성능은 2배, 35B 모델은 1.6배 향상됐다. 프로그램 방식의 종속 런칭(programmatic dependent launch)을 결합해 연산 낭비를 줄였다.
vLLM(고성능 LLM 서빙 엔진) 환경에서는 NVFP4(NVIDIA FP4) 체크포인트를 개발했다. DGX Spark에서 Qwen 3.6 35B 모델을 구동한 결과, 기존 Unsloth(LLM 미세조정 및 최적화 도구)의 NVFP4 체크포인트 대비 2.6배 빠른 성능을 보였다. 커널 개선과 혼합 정밀도 적용, MTP를 위한 CUDA Graph 지원이 성능을 끌어올렸다.
PC 제어 AI 전문 기업인 H Company의 Holo 모델은 엔비디아 GPU 가속을 통해 추론 속도를 2배 높이고 메모리 소비를 35% 줄였다. 특히 H Company가 개발한 computer-use harness(컴퓨터 사용 하네스)는 API가 없는 애플리케이션에서도 AI가 화면을 직접 인식하고 마우스와 키보드를 제어하게 함으로써 모든 윈도우 앱을 AI의 제어 범위에 넣는 효과를 낸다.
로컬 모델의 성능 향상은 사용자가 체감하는 대기 시간을 실시간 수준으로 낮춘다. 메모리 점유율 35% 감소는 더 큰 파라미터의 모델을 로컬 메모리에 올릴 수 있는 물리적 여유를 확보한다. 오픈 소스 생태계의 최적화 도구들이 엔비디아 하드웨어 스택에 밀착되면서 온디바이스 에이전트의 실질적 구동 조건이 갖춰졌다.
어도비 2배 가속과 블렌더 실시간 렌더링: 크리에이티브 툴의 변화
어도비는 프리미어와 포토샵의 내부 구조를 RTX Spark에 맞춰 재설계했다. 포토샵의 생성형 채우기와 프리미어의 생성형 확장 등 수백 가지 AI 도구가 가속 대상에 포함됐다. 포토샵의 차세대 엔진은 GPU 가속 컴포지팅을 통해 라이브 필터와 고역동적 범위(HDR) 표현, 자연스러운 브러싱을 구현하는 AI 네이티브 파이프라인를 구축했다. RTX Spark 적용 시 AI 편집과 컬러링, 이펙트 처리 속도는 최대 2배 향상되어 작업 대기 시간이 절반으로 줄어든다.
프리미어는 블랙웰(Blackwell) GPU와 텐서RT(TensorRT)를 기반으로 새로운 비디오 파이프라인를 구축했다. RTX Spark의 통합 메모리를 직접 활용해 고해상도 영상의 복잡한 타임라인에서도 실시간 편집과 색 보정을 구현하며, 무거운 이펙트 적용 시에도 프록시 파일 생성 없이 즉시 결과물을 확인하며 수정할 수 있다. 어도비 서브스턴스 3D 페인터와 스테이저 역시 RTX Spark에서 네이티브로 구동되어 3D 텍스처링과 장면 생성 속도를 높였다.
블렌더(Blender) 5.3은 DLSS 4.5 레이 재구성(Ray Reconstruction) 기술을 통합해 패스 트레이싱 뷰포트를 인터랙티브한 실시간 뷰어로 전환한다. 3D 아티스트는 최종 렌더링에 근접한 품질을 유지하며 장면 내부를 자유롭게 탐색할 수 있어, 조명 설정과 룩뎁(Look-development) 과정의 렌더링 대기 시간이 제거된다.
엔비디아 브로드캐스트(NVIDIA Broadcast) 2.2는 스튜디오 보이스(Studio Voice) 기능을 통해 일반 마이크 음질을 AI로 분석해 스튜디오 수준으로 변환한다. 지포스 RTX 3060 이상의 GPU 환경에서 사용 가능하며, 엘가토 스트림 덱 통합과 단축키 설정을 통해 조작 편의성을 높였다.
한국 AI 실무자를 위한 온디바이스 에이전트 도입 기준
규제가 엄격한 한국 기업 환경에서는 데이터 유출 사고가 법적 규제 및 보안 사고로 이어지기 때문에, OpenClaw(오픈클로)나 Hermes(헤르메스) 같은 오픈 소스 에이전트 프로젝트가 빠르게 확산하고 있다. 로컬 에이전트는 모든 연산이 기기 내부에서 처리되므로 데이터 유출 경로를 원천적으로 차단하며, 사용자 워크플로우에 맞춰 앱 제어와 반복 업무 자동화를 수행한다.
로컬 에이전트를 실무 수준으로 구동하려면 100GB 이상의 통합 메모리가 필수적이다. 메모리 용량은 에이전트가 한 번에 처리할 수 있는 문맥의 양과 모델의 크기를 결정하기 때문이다. 이제 전문가용 워크스테이션의 도입 기준은 단순 연산 속도가 아니라, 특정 규모의 AI 에이전트를 지연 없이 구동할 수 있는 하드웨어 사양으로 이동했다.
윈도우 기반 기업 환경에서 에이전트를 도입할 때는 샌드박싱(Sandboxing) 기술을 통해 에이전트의 활동 범위를 엄격히 제한하는 과정이 선행되어야 한다. 사용자 권한을 세밀하게 정의하고 쿼리를 로컬 모델로 정확히 라우팅하는 제어 체계가 갖춰져야 기업용 솔루션으로서 실효성을 가진다. 보안 요구치와 하드웨어 성능 사이의 균형을 맞추는 것이 온디바이스 에이전트 도입의 핵심 판단 기준이다.
클라우드 AI에 개인 파일이나 기업 기밀을 업로드할 때 발생하는 보안 불안은 상존하는 리스크다. RTX Spark는 고성능 연산력과 통합 메모리를 통해 온디바이스 에이전트를 구동하며 이 문제를 해결한다. NVIDIA OpenShell 런타임은 사용자 권한을 정의하고 쿼리를 로컬 모델로 라우팅해 데이터 외부 유출을 막는다.
이제 판단 기준은 로컬 하드웨어 사양이 클라우드 기반 AI 에이전트의 성능과 보안 요구치를 완전히 대체할 수 있느냐로 옮겨간다. 하드웨어의 물리적 스펙이 AI 에이전트의 실효성을 결정한다.




