Dell과 NVIDIA가 Dell Technologies World에서 Vera Rubin NVL72와 Vera CPU를 포함한 차세대 AI 인프라 포트폴리오를 공개했다. 이번 발표의 핵심은 에이전틱 AI(Agentic AI, 자율적으로 목표를 수행하는 AI) 추론 비용을 기존 Blackwell(블랙웰, NVIDIA의 이전 세대 GPU 아키텍처) 대비 10분의 1 수준으로 낮춘 것이다. Dell은 2030년까지 전 세계 AI 인프라 지출이 3~4조 달러에 달하고 토큰 소비량이 3,400% 증가할 것으로 전망하며, 이에 대응하는 'Dell AI Factory'를 제안했다.
기업용 AI가 단순 파일럿 단계를 넘어 대규모 추론 배포 단계로 진입함에 따라, 보안이 강화된 온프레미스(On-premises, 기업 자체 서버실) 환경에서의 모델 구동 능력이 강조된다. 실제로 Dell의 조사에 따르면 AI 워크로드의 67%가 이미 클라우드 외부에서 실행되고 있으며, 88%의 응답자가 최소 하나 이상의 워크로드를 온프레미스에서 운영 중인 것으로 관찰된다. 특히 이번 업데이트에서는 추론 효율뿐만 아니라 에이전트의 샌드박스 실행 속도를 50% 높이고 데이터 쿼리 처리 속도를 최대 3배 향상시킨 Vera CPU의 역할이 부각된다.
이러한 하드웨어 변화는 OpenAI Codex(코덱스, 코드 생성 AI 모델)와 같은 도구가 기업 내부의 코드베이스, 문서, 비즈니스 시스템과 더 밀접하게 연결되어 실질적인 업무 자동화를 수행하는 기반이 된다. Dell은 이를 위해 NVIDIA Confidential Computing(컨피덴셜 컴퓨팅, 데이터 처리 중에도 암호화를 유지하는 기술)을 적용하여 모델 IP와 민감 데이터를 보호하는 보안 체계를 구축했다.
Vera Rubin NVL72와 PowerEdge XE9812의 하드웨어 제원
개발팀이 주목하는 핵심 지표는 토큰당 비용의 획기적인 하락이다. Dell PowerEdge XE9812는 NVIDIA Vera Rubin NVL72(엔비디아의 차세대 GPU 아키텍처 기반 시스템)를 탑재하여, 기존 Blackwell(블랙웰) 대비 토큰당 비용을 최대 10배까지 낮춘 것으로 관찰된다. 이는 대규모 에이전틱 AI(자율적으로 목표를 수행하는 AI) 추론 환경에서 운영 비용의 임계점을 낮추는 결정적인 변화로 분석된다. 추론 비용의 감소는 단순히 지출을 줄이는 것을 넘어, 더 많은 반복적 사고 과정과 복잡한 추론 체인을 모델에 적용할 수 있는 실무적 여유를 제공하며, 결과적으로 더 정교한 에이전트 설계가 가능해짐을 시사한다.
하드웨어 확장성 측면에서는 NVIDIA HGX Rubin NVL8 기반의 PowerEdge XE9880L, XE9885L, XE9882L 라인업이 도입된다. 이 시스템들은 랙당 최대 144개의 GPU를 지원하는 고밀도 설계를 갖췄으며, 모든 컴퓨팅 노드에 100% 직접 액체 냉각(Direct Liquid Cooling) 방식을 적용해 전력 효율과 발열 제어를 최적화했다. 성능 수치 또한 HGX B200 대비 최대 5.5배 향상된 것으로 나타난다. 이는 고성능 연산 자원이 집중적으로 필요한 에이전틱 워크로드의 특성상, 단일 랙 내에서 처리 가능한 연산 밀도를 극대화함으로써 데이터 센터의 물리적 공간 효율성을 높이고 전력 소모 대비 처리 성능을 최적화한 결과로 해석된다.
네트워크 인프라는 Dell PowerSwitch 포트폴리오를 통해 데이터 전송의 병목 현상을 해결한다. NVIDIA Quantum-X800 InfiniBand(인피니밴드, 고성능 네트워크 표준)와 Spectrum-6 Ethernet(스펙트럼-6 이더넷)을 적용하여 GPU 간 통신 속도를 극대화하고 지연 시간을 최소화했다. 특히 컴퓨팅과 네트워킹, 스토리지를 하나의 시스템으로 통합한 Dell PowerRack은 열 설계와 전력 관리, 소프트웨어 최적화가 통합된 풀 스택 환경을 제공한다. 이는 개별 부품을 조립하고 설정할 때 발생하는 복잡한 통합 오버헤드를 제거함으로써, 엔터프라이즈 규모의 AI 및 HPC(고성능 컴퓨팅) 워크로드를 인프라 구축 단계의 시행착오 없이 즉시 배포할 수 있는 환경을 구축했다는 점에서 실무적 이점이 크다. 이러한 통합 접근 방식은 하드웨어 계층의 복잡성을 추상화하여 개발자가 모델 최적화와 서비스 구현에 더 집중할 수 있는 구조를 제안한다.
Vera CPU의 단일 스레드 성능과 에이전틱 워크플로우 최적화
개발팀이 공개한 수치는 여기서 갈린다. 에이전틱 워크로드 처리 속도에서 Vera CPU는 기존 x86 프로세서 대비 50% 빠른 완료 속도를 기록했다. 이는 에이전트가 작업을 수행하는 방식의 근본적인 특성에서 기인한다. 일반적인 병렬 처리와 달리, 자율 에이전트는 특정 단계의 결과값이 도출되어야만 다음 추론이나 도구 호출 단계로 진입하는 순차적 의존성을 가진다. 이 과정에서 단일 스레드의 처리 속도가 전체 파이프라인의 결정적인 병목으로 작용하며, CPU 성능의 한계가 곧 에이전트의 응답 지연으로 이어진다. Vera CPU는 세계 최고 수준의 단일 스레드 성능을 구현하여 각 단계 사이의 유휴 시간을 최소화하고 전체 피드백 루프를 단축하는 설계를 제안한다.
메모리 대역폭의 확장은 데이터 쿼리 성능의 직접적인 향상으로 이어진다. Vera CPU는 1.2 TB/s의 메모리 대역폭을 제공하며, 이는 에이전트가 외부 데이터베이스에 빈번하게 접근하여 컨텍스트를 업데이트하는 환경에서 핵심적인 역할을 수행한다. 실제로 분산 SQL 쿼리 엔진인 Starburst(스타버스트) 기반의 쿼리 처리량은 기존 대비 3배 향상된 것으로 관찰된다. 에이전트가 대규모 데이터셋에서 필요한 정보를 쿼리하고 이를 다시 추론 모델에 입력하는 과정은 반복적인 데이터 이동을 수반한다. Vera CPU의 높은 대역폭은 이러한 데이터 전송 병목을 제거하여, 에이전트가 복잡한 분석 작업을 수행할 때 느끼는 체감 속도를 비약적으로 높이는 결과로 나타난다.
데이터 엔진의 가속화는 NVIDIA CUDA-X 라이브러리(GPU 가속 컴퓨팅 라이브러리)의 통합을 통해 구체화된다. 구조화된 데이터를 효율적으로 처리하는 cuDF(GPU 가속 데이터프레임 라이브러리)와 비구조화 데이터의 벡터 검색을 담당하는 cuVS(GPU 가속 벡터 검색 라이브러리)가 Vera CPU의 연산 능력과 유기적으로 결합된다. 이러한 구조는 데이터 파이프라인의 실행부터 분석, 샌드박스 내 도구 실행 및 코드 워크로드 처리까지의 전 과정을 가속한다. 특히 에이전트가 생성한 코드를 격리된 환경에서 실행하고 그 결과를 다시 분석하는 루프에서 CPU의 빠른 처리 속도는 필수적이다. 이는 단순한 하드웨어 사양의 증가를 넘어, 데이터의 형태와 관계없이 에이전트가 필요로 하는 정보를 즉각적으로 추출하고 처리할 수 있는 최적화된 실행 환경을 제공하는 것으로 분석된다.
클라우드 중심에서 온프레미스 AI 팩토리로의 전환
AI 워크로드의 67%가 이미 클라우드 외부인 온프레미스, 엣지, 코로케이션 환경에서 실행되고 있다. 설문에 참여한 기업의 88%가 최소 하나 이상의 AI 워크로드를 온프레미스에서 운영한다는 수치는 AI 인프라의 무게중심이 다시 로컬로 이동하고 있음을 명확히 보여준다. 초기 AI 도입 단계에서는 클라우드의 유연성과 빠른 배포 속도가 우선시되었으나, 실제 서비스 규모가 확장되면서 데이터 주권과 운영 비용이라는 현실적인 제약이 수면 위로 올라온 결과로 관찰된다. 이는 단순한 인프라의 위치 변경이 아니라, 기업 내부의 데이터 경계 내에서 모델과 데이터를 완전히 제어하려는 전략적 선택의 결과로 분석된다.
비용 효율성 측면에서 이러한 전환은 하드웨어의 세대 교체와 맞물려 더욱 가속화되는 양상을 보인다. 특히 Vera Rubin NVL72(베라 루빈 NVL72) 도입 시 대규모 에이전틱 AI 추론 비용이 이전 세대인 Blackwell(블랙웰) 대비 10분의 1 수준으로 감소한다는 점에 주목할 필요가 있다. 에이전틱 AI는 단일 응답을 넘어 스스로 계획을 세우고 도구를 호출하는 반복적인 추론 과정을 거치기에 토큰 소비량이 기하급수적으로 증가한다. 토큰당 비용의 획기적인 절감은 그동안 비용 부담으로 인해 실험 단계에 머물렀던 대규모 에이전트 배포를 실무 코드 수준에서 구현 가능하게 만든다. 추론 비용의 감소는 더 많은 에이전트를 더 빈번하게 호출할 수 있는 구조적 여유를 제공하며, 이는 곧 기업용 AI 서비스의 경제적 타당성을 확보하는 핵심 변수가 된다.
보안 모델의 진화 역시 온프레미스 회귀를 뒷받침하는 결정적인 기술적 근거가 된다. NVIDIA Confidential Computing(엔비디아 컨피덴셜 컴퓨팅)은 모델 가중치와 기업 데이터를 엔드투엔드로 보호하는 환경을 제공함으로써, 클라우드 환경에서 상존하던 데이터 유출 및 모델 IP 노출 리스크를 원천적으로 차단한다. 데이터가 메모리에서 처리되는 과정까지 암호화하여 보호하는 이 방식은 금융, 의료, 공공 부문과 같이 규제가 엄격한 산업군에서 AI 팩토리를 구축하는 필수 전제 조건으로 작용한다. 외부 클라우드 제공자에 대한 의존도를 낮추고 자체적인 거버넌스를 확립하려는 움직임은 결국 보안과 비용이라는 두 가지 실무적 요구가 결합하여 클라우드 중심의 AI 생태계를 기업 내부의 독립적인 AI 팩토리 체제로 재편하고 있음을 시사한다.
프라이빗 환경에서의 프론티어 모델 배포 및 생태계 확장
엔터프라이즈 AI의 전장은 이제 퍼블릭 클라우드를 넘어 기업 내부의 프라이빗 인프라로 빠르게 이동하고 있다. 최근 델(Dell)이 공개한 인프라 전략의 핵심은 보안이 담보된 환경에서 프론티어 모델을 직접 구동하는 제어권의 확보에 있다. 구글 분산 클라우드(GDC, Google Distributed Cloud)의 제미나이(Gemini) 3.0 프리뷰 버전이 파워엣지(PowerEdge) XE9780 서버에서 제공되기 시작했다는 사실이 이를 증명한다. 이는 엔비디아 컨피덴셜 컴퓨팅(NVIDIA Confidential Computing, 데이터 처리 과정에서 메모리 내용을 암호화하는 기술)을 통해 모델의 지식재산권과 기업의 민감 데이터를 동시에 보호하며 최신 상용 모델을 온프레미스에 올리는 구조를 완성한다. 스페이스XAI(SpaceXAI) 역시 최신 모델을 델 AI 팩토리(Dell AI Factory) 온프레미스 환경에 배포함으로써 데이터 유출 우려 없이 프론티어급 성능을 확보하는 경로를 택했다.
실무 관점에서 주목할 지점은 오픈 웨이트 모델의 배포 진입장벽이 급격히 낮아지고 있다는 사실이다. 허깅페이스(Hugging Face) 내 델 엔터프라이즈 허브(Dell Enterprise Hub)를 통해 젬마 4(Gemma 4), 미스트랄 스몰 4(Mistral Small 4), 아르시 트리니티 라지 씽킹(Arcee Trinity-Large-Thinking) 같은 모델들이 즉시 제공된다. 여기에 엔비디아 네모트론(NVIDIA Nemotron), 리플렉션(Reflection), 미니맥스(MiniMax-M2.7), 딥시크(DeepSeek-V4), GLM 5.1, 키미(Kimi K2.6) 등 최신 오픈 모델들이 추가되며 기업은 자신의 도메인 데이터에 최적화된 모델을 선택해 내부망에 구축할 수 있게 되었다. 특히 NVFP4 최적화가 적용된 모델들은 추론 효율을 극대화하여 하드웨어 비용 부담을 줄이면서도 고성능 에이전트를 구현하는 기술적 기반이 된다.
인프라와 모델의 결합을 넘어 운영 체제 수준의 표준화 작업도 관찰된다. 팔란티어(Palantir)의 소버린 AI OS(Sovereign AI OS, 국가나 기업이 데이터 주권을 갖고 운영하는 AI 운영체제) 참조 아키텍처 도입이 대표적이다. 이는 단순히 모델을 설치하는 것을 넘어, 기업의 기존 워크플로우와 데이터 파이프라인을 AI 에이전트와 어떻게 연결할 것인가에 대한 설계도를 제공한다. 보안이 보장된 하드웨어 위에서 오픈 웨이트 모델을 선택하고, 이를 소버린 AI OS라는 구조적 틀 안에서 운영하는 방식은 6개월 뒤 기업의 코드베이스에 직접적인 영향을 미칠 것으로 보인다. 개발자는 API 호출 방식의 외부 의존성에서 벗어나, 내부 인프라의 자원 할당과 모델 버전을 직접 제어하는 제어권 중심의 개발 환경으로 전환하게 된다.
삼성의 R&D 칩 설계 적용과 한국 AI 실무자의 시사점
삼성전자가 R&D 칩 설계와 제조 공정에 Dell AI Factory with NVIDIA(델 AI 팩토리 위드 엔비디아)를 도입해 실제 생산 환경에 적용했다. 이는 단순한 기술 검증을 넘어 제조 및 설계라는 핵심 공정에 에이전틱 AI(자율적 판단과 행동이 가능한 AI)를 결합한 사례로 관찰된다. 생명과학 분야의 릴리(Lilly)가 AI 기반 혁신을 추진하고, 허니웰(Honeywell)이 공공 클라우드에서 온프레미스(자체 구축 서버) 환경으로 전환하며 디지털 트윈(Digital Twin, 가상 공간의 물리적 복제물)과 자동화를 구현한 점은 시사하는 바가 크다. 고도의 보안이 요구되는 산업군일수록 데이터와 모델 IP를 내부망에 가두는 전략을 택하고 있다.
금융권의 움직임 역시 하드웨어의 수직적 확장으로 이어진다. 알고리즘 트레이딩 기업인 허드슨 리버 트레이딩(Hudson River Trading)은 AI 기반 리서치 역량을 강화하기 위해 PowerEdge XE9685L 서버와 Spectrum-X Ethernet(스펙트럼-X 이더넷, 고성능 네트워크 솔루션)을 확장 도입했다. 데이터의 양과 모델의 규모가 커질수록 네트워크 병목 현상을 해결하는 것이 실무적 과제가 되며, 이를 위해 전용 이더넷 인프라를 구축하는 방향이 제안된다. 이는 AI 모델의 성능만큼이나 이를 뒷받침하는 물리적 인프라의 최적화가 추론 효율에 직접적인 영향을 미친다는 사실을 보여준다.
실무자가 가장 주목해야 할 지점은 토큰당 추론 비용의 90% 절감이라는 수치다. 기존의 에이전틱 AI 구현에서 가장 큰 걸림돌은 에이전트가 정답을 찾기 위해 반복적으로 사고하는 추론 루프(Reasoning Loop) 과정에서 발생하는 막대한 비용이었다. 비용이 10분의 1로 줄어든다는 것은 개발자가 상용 수준의 복잡한 추론 체인을 코드에 구현해도 운영 비용이 감당 가능한 범위 내로 들어옴을 의미한다. 6개월 뒤 우리의 코드에는 단순한 단발성 질의응답이 아니라, 스스로 계획을 세우고 검증하며 수정하는 다단계 에이전트 워크플로우가 본격적으로 삽입될 가능성이 높다.
한국의 AI 실무자들에게 이는 온프레미스 기반의 에이전틱 AI 도입이 선택이 아닌 필수임을 시사한다. 특히 반도체나 제조 분야의 핵심 IP 보호는 기업의 생존과 직결되기에, NVIDIA Confidential Computing(엔비디아 컨피덴셜 컴퓨팅, 데이터 사용 중 보안 기술)과 같은 기술을 통해 모델 가중치와 민감 데이터를 보호하며 프런티어 모델을 내부적으로 운영하는 구조가 필요하다. 인프라의 소유권과 제어권을 확보한 상태에서 추론 비용의 효율성을 극대화하는 방향으로 아키텍처를 설계하는 것이 향후 AI 서비스의 상용화 속도를 결정짓는 핵심 변수가 될 것으로 관찰된다.




