1조 파라미터 모델과 에이전트 전용 CPU 탑재한 HPE AI 팩토리 확장

2027년 출시 예정인 에이전트 전용 CPU Vera와 1조 파라미터 대응

AI 에이전트 서비스의 구동 하드웨어 비용은 기업의 수익 구조를 결정하는 핵심 변수다. 에이전트가 스스로 도구를 호출하고 데이터를 처리하는 루프를 실시간으로 수행하려면 기존 범용 연산 구조로는 한계가 있다. NVIDIA와 HPE는 이를 해결하기 위해 에이전트의 도구 호출(tool calls), 오케스트레이션(orchestration), 실시간 데이터 처리에 최적화한 전용 CPU인 Vera를 개발했다.

NVIDIA Vera CPU를 탑재한 HPE ProLiant Compute DL394 Gen12 서버는 2027년 출시될 예정이다. 이 서버는 에이전트 루프 내 지연 시간을 줄여 HPE Private Cloud AI 환경의 응답 속도를 높인다. 뉴욕증권거래소(NYSE)는 Redpanda 및 HPE와 협력하여 해당 서버와 Vera CPU 도입을 조기에 검토하는 초기 고객으로 참여하고 있다.

더 거대한 모델을 수용하기 위한 인프라는 NVIDIA Vera Rubin 플랫폼으로 확장된다. 랙 스케일 시스템인 NVIDIA Vera Rubin NVL72는 1조 개 이상의 파라미터(parameter)를 가진 프론티어급 초거대 모델을 지원한다. HPE는 NVIDIA HGX Rubin NVL8 기반의 HPE Compute XD700을 통해 랙당 최대 128개의 Rubin GPU를 지원하는 환경을 구축한다. 이는 단일 랙 내 연산 밀도를 극대화해 1조 파라미터 이상의 모델을 온프레미스 환경에서 운용하는 물리적 기반이 된다.

NVIDIA Agent Toolkit과 Alletra Storage MP

NVIDIA Agent Toolkit은 에이전트의 실행과 관리를 제어하는 전용 운영체제 역할을 한다. 이 툴킷은 NVIDIA Nemotron 오픈 모델, OpenShell 보안 런타임, NemoClaw 블루프린트를 포함한다. 기업은 이를 통해 에이전트의 행동을 실시간으로 모니터링하고 거버넌스 정책을 강제한다. 특히 다중 에이전트 시스템에서 각 에이전트가 수행하는 작업 경로를 추적하고 상호작용을 제어한다.

HPE Private Cloud AI는 에이전트 작동 전 보안 검증을 수행하는 로컬 에이전트 등록 기능을 제공한다. 관리자는 중앙에서 거버넌스 및 보안 정책을 설정하고, AI 모델과 개별 스킬, 도구의 사용 가능 여부를 사전에 승인한다. 승인 절차를 거치지 않은 모델이나 도구는 로컬 환경에 등록될 수 없으며, 이를 통해 에이전트가 허가되지 않은 경로로 데이터를 유출하거나 내부 보안 지침을 위반하는 상황을 차단한다.

데이터 처리 효율은 HPE Alletra Storage MP X10000 스토리지 시스템이 담당한다. NVIDIA-Certified Storage 파운데이션 레벨 인증을 획득한 이 장치는 비정형 데이터에 메타데이터와 거버넌스 정책을 자동으로 적용해 AI 파이프라인이 즉시 사용할 수 있는 형태로 준비한다. 이 과정은 데이터 전처리 병목을 줄여 AI 모델의 토큰 처리량을 개선하며, 대규모 비정형 데이터를 처리하는 에이전트의 추론 효율과 시스템 응답 속도를 높인다.

기밀 컴퓨팅(Confidential Computing)과 제로 트러스트 보안

하드웨어와 툴킷을 통한 제어 외에도, 데이터 처리 과정의 보안 확보가 필수적이다. NVIDIA Confidential Computing은 데이터가 메모리에서 처리되는 실행 단계에서도 암호화를 유지해 모델과 프라이빗 데이터를 보호한다. 이 시스템은 암호화 증명을 통해 하드웨어와 소프트웨어의 무결성을 검증하며 데이터 유출 경로를 차단한다. HPE ProLiant Compute DL380a 서버는 NVIDIA 기밀 컴퓨팅 인증을 획득해 하드웨어 수준에서 AI 워크로드를 보호한다.

네트워크 단에서는 NVIDIA BlueField DPU와 DOCA가 실리콘 수준의 제로 트러스트 정책을 집행한다. 런타임 위협 탐지와 네트워크 암호화를 수행해 성능 저하 없이 데이터와 에이전트를 보호한다. CPU 부하를 줄이면서 모든 데이터 흐름을 실시간으로 감시하는 구조는 에이전트 간 통신이 빈번한 멀티 에이전트 시스템의 보안 병목을 해결한다.

HPE Zerto Software는 에이전트의 비정상 동작을 탐지하고 지속적 데이터 보호(CDP)를 통해 시스템을 클린 상태로 되돌리는 리와인드 기능을 제공한다. 자율형 에이전트가 예기치 못한 동작을 수행했을 때 즉각적으로 정상 시점으로 복구해 서비스 중단 시간을 최소화한다. 하드웨어 기반 암호화와 실시간 탐지 및 복구 체계의 결합은 온프레미스 환경에서 초거대 모델을 안전하게 운용하는 보안 체계가 된다.

소버린 AI 구현을 위한 네트워크 옵션과 파트너 생태계

데이터 주권을 중시하는 조직은 보안 검토와 인프라 구축에 시간을 소요한다. 즉시 도입 가능한 HPE AI 팩토리 솔루션은 RTX PRO 6000 Blackwell 서버 에디션 GPU를 중심으로 구성된다. 여기에 Spectrum-X 이더넷, BlueField-3 DPU, ConnectX-8 SuperNIC가 결합되어 제공된다. 내부망에 데이터를 가두고 모델을 운용해야 하는 금융이나 공공 분야 실무자에게는 보안 가이드라인을 충족하는 하드웨어 조합이 된다.

차세대 시스템인 Vera Rubin NVL72는 통신 병목 해결에 집중한다. BlueField-4 DPU, ConnectX-9 SuperNIC, Spectrum-X 이더넷이 기본 탑재되며, 특히 Spectrum-6 스위칭 기술을 적용해 일반 이더넷 대비 AI 통신 성능을 1.6배 향상시켰다. 이는 수조 개의 파라미터가 분산 배치된 환경에서 노드 간 데이터 전송 속도를 높여 대규모 모델의 학습 및 추론 대기 시간을 줄인다.

소버린 AI(Sovereign AI) 구현을 위해 네트워크 옵션을 이원화했다. 표준 Spectrum-X 이더넷 외에도 NVIDIA Quantum-X800 인피니밴드를 HPE Cray Supercomputing GX5000과 결합해 사용할 수 있다. 인피니밴드는 초저지연 통신에 특화되어 극도로 높은 연산 밀도가 필요한 대규모 워크로드에 적합하다. 소프트웨어 최적화를 위해 Unleash AI 파트너 프로그램에는 Aizen, BridgeTEK, deepset, Deliverance, Faclon Labs, Gallop, Rocket, Supervity, Thales, Trustwise, Vortiqx 등 12개 파트너사가 참여해 에이전트 구현 범위를 확장한다.

PoC 단계의 AI 에이전트를 실제 운영 환경으로 전환할 때 겪는 성능 병목과 데이터 유출 우려는 결국 물리적 인프라의 스펙 문제로 귀결된다. 1조 파라미터급 모델을 지원하는 Rubin 플랫폼과 에이전트 전용 Vera CPU, 그리고 기존 이더넷 대비 1.6배 성능의 Spectrum-6 스위칭 구조는 온프레미스 환경에서 초거대 모델을 운용하기 위한 실질적인 하드웨어 기준이 된다. 이제 기업은 확보된 하드웨어 스펙과 보안 가이드라인을 기준으로 데이터 주권과 추론 효율 사이의 최적의 구성을 선택해야 한다.