토큰 비용 10배 낮춘 Vera Rubin NVL72, 컴퓨텍스 골든 어워드 석권

NVIDIA가 COMPUTEX(컴퓨텍스, 대만 최대 IT 전시회)의 Best Choice Awards(BCA)에서 Vera Rubin NVL72, Jetson Thor, Alpamayo 3종의 제품으로 골든 어워드를 포함한 주요 부문을 수상했다. 이번 수상은 단순한 제품의 우수성을 넘어, AI 팩토리(AI Factory, AI 모델을 생산하고 구동하는 데이터센터 인프라)와 물리적 AI(Physical AI, 로봇이나 자율주행차처럼 물리적 실체와 결합된 AI)라는 NVIDIA의 차세대 전략이 하드웨어와 소프트웨어 층위에서 어떻게 구현되었는지를 보여주는 지표로 해석된다. 특히 6월 1일 타이베이 뮤직 센터에서 진행될 젠슨 황(Jensen Huang) CEO의 기조연설을 앞두고, 데이터센터급 슈퍼컴퓨팅부터 엣지 로보틱스, 자율주행 플랫폼에 이르는 풀스택 라인업의 기술적 완성도를 공식적으로 인정받았다는 점에 주목해야 한다.

추론 성능의 비약적 향상과 운영 비용 절감을 동시에 달성한 Vera Rubin NVL72(랙 규모의 AI 슈퍼컴퓨터)는 지속 가능한 기술 특별상을 함께 거머쥐었다. Jetson Thor(엣지 AI 및 로보틱스 플랫폼)는 물리적 AI를 위한 가장 강력한 컴퓨팅 기반을, Alpamayo(자율주행 개발 오픈 플랫폼)는 자율주행의 난제인 '롱테일(Long-tail, 발생 빈도는 낮지만 치명적인 예외 상황)' 시나리오 해결을 위한 추론 기반 접근법을 제시했다. 이는 AI 모델의 크기가 조 단위 파라미터로 확장되는 상황에서, 이를 효율적으로 구동하기 위한 전력 효율성과 하드웨어 최적화가 더 이상 선택이 아닌 필수 생존 전략이 되었음을 시사한다.

Vera Rubin NVL72와 Jetson Thor, 컴퓨텍스(COMPUTEX) 골든 어워드 수상

올해 컴퓨텍스 베스트 초이스 어워드(BCA)의 심사 기준은 기능성과 혁신성, 그리고 시장 잠재력이었다. 엔비디아는 이 기준에 따라 AI 컴퓨팅과 집적 회로, 자율주행 개발 부문에서 기술적 성취를 인정받아 주요 상을 석권했다. 베라 루빈 NVL72(Vera Rubin NVL72)는 골든 어워드와 지속 가능 기술 특별상을 동시에 거머쥐었으며, 엣지 AI 및 로보틱스 플랫폼인 젯슨 토르(Jetson Thor)가 골든 어워드를 수상했다. 자율주행 개발을 위한 오픈 플랫폼인 알파마요(Alpamayo) 역시 차량 기술 및 스마트 콕핏 부문 상을 받았다. 이러한 성과를 바탕으로 젠슨 황 최고경영자는 6월 1일 오전 11시(대만 시간)에 기조연설을 통해 세부 전략을 공개할 예정이다.

베라 루빈 NVL72는 랙 규모의 AI 슈퍼컴퓨터로, 36개의 베라 CPU와 72개의 루빈 GPU를 결합한 구조를 가진다. 스케일업을 위한 6세대 NV링크 스위치(NVLink Switch)와 스케일아웃을 위한 커넥트X-9 슈퍼닉(ConnectX-9 SuperNIC), 스펙트럼-X 이더넷 포토닉스(Spectrum-X Ethernet Photonics) 공동 패키징 광 스위치가 통합되어 데이터 전송 효율을 극대화한다. 여기에 스토리지와 보안 전반의 데이터 처리를 가속하는 블루필드-4 DPU(Data Processing Unit, 데이터 처리 장치)가 탑재되었다. 이 시스템은 와트당 추론 성능을 최대 10배 높이고 토큰당 비용을 10배 낮추는 효율을 관찰할 수 있다. 특히 그록 3 LPX(Groq 3 LPX)와 결합할 경우 조 단위 매개변수 모델에서 와트당 처리량이 최대 35배까지 향상된다. 하드웨어 설계 측면에서는 케이블과 호스, 팬이 없는 모듈형 트레이 방식을 채택해 컴퓨트 트레이당 조립 시간을 2시간에서 5분으로 단축했다. 100% 액체 냉각 아키텍처는 45도에서 작동하며, 이는 기존 액체 냉각 데이터 센터에 즉시 도입 가능함을 시사한다.

물리적 AI와 자율 주행 로봇을 위해 설계된 젯슨 토르는 블랙웰(Blackwell) GPU 아키텍처를 기반으로 하며 최대 2,070 FP4 테라플롭스(TFLOPS)의 AI 성능을 제공한다. 이는 이전 세대인 젯슨 오린(Jetson Orin) 대비 연산 능력은 7.5배, 에너지 효율은 3.5배 향상된 수치이며 40에서 130와트 사이의 전력 구성이 가능하다. 한편 알파마요는 자율주행 중 발생하는 희귀하고 복잡한 롱테일 시나리오를 해결하는 데 집중한다. 보행자의 모호한 수신호를 해석하거나 교통 신호와 도로 표지판이 충돌하는 상황, 또는 차선에 일부 걸쳐 정차한 긴급 차량을 안전하게 통과하는 등의 추론 기반 주행 개발을 지원한다. 이 플랫폼은 100억 개의 매개변수를 가진 사고 사슬(CoT, Chain-of-Thought) 추론 시각 언어 행동 모델인 알파마요 1.5와 1, 고충실도 자율주행 개발을 위한 엔드 투 엔드 시뮬레이션 프레임워크인 알파심(AlpaSim), 그리고 다양한 지역과 조건에서 수집된 1,700시간 이상의 주행 데이터를 포함한 물리적 AI 오픈 데이터셋을 제공한다.

Vera Rubin NVL72: 100% 액체 냉각과 6세대 NVLink의 결합

Vera Rubin NVL72는 36개의 NVIDIA Vera CPU(중앙처리장치)와 72개의 NVIDIA Rubin GPU(그래픽처리장치)를 단일 랙 규모로 통합한 구조를 가진다. 이 시스템의 핵심은 데이터 전송 병목을 해결하는 계층적 연결 방식에서 관찰된다. 랙 내부의 연산 자원을 하나로 묶는 스케일업(Scale-up) 영역에는 6세대 NVIDIA NVLink Switch가 배치되어 GPU 간 초고속 통신을 지원한다. 동시에 랙과 랙 사이를 연결하는 스케일아웃(Scale-out) 및 스케일어크로스(Scale-across) 영역에는 ConnectX-9 SuperNICs(슈퍼 네트워크 인터페이스 카드)와 Spectrum-X Ethernet Photonics(이더넷 포토닉스) 코패키징 광 스위치가 적용되었다. 여기에 BlueField-4 DPU(데이터 처리 장치)가 더해져 스토리지와 보안 전반의 데이터 처리 속도를 가속화하는 구조를 완성한다. 이러한 설계는 조 단위 파라미터 모델이 요구하는 막대한 메모리 대역폭과 통신 효율을 하드웨어 레벨에서 강제하며, 소프트웨어 스택이 하드웨어의 성능을 온전히 끌어낼 수 있는 환경을 제공한다.

모듈형 트레이 구조는 기존의 복잡한 배선과 냉각 방식을 완전히 제거하며 물리적 설계의 혁신을 보여준다. 케이블과 호스, 팬이 없는 설계를 통해 컴퓨트 트레이 하나를 조립하는 데 소요되던 시간이 기존 2시간에서 5분으로 단축되는 결과가 나타난다. 냉각 방식은 100% 액체 냉각 아키텍처를 채택하여 45도에서 작동하도록 설계되었다. 이는 기존의 액체 냉각 데이터 센터에 즉시 통합될 수 있을 뿐만 아니라, 외부 공기를 이용하는 드라이 쿨러 설계를 가능하게 한다. 결과적으로 냉각에 소모되던 전력 오버헤드를 토큰 생성이라는 실질적인 연산 자원으로 재배치하는 효율을 달성한다. 인프라 관리 관점에서 보면 하드웨어 교체 주기와 유지보수 비용을 획기적으로 낮추는 실무적 이점이 관찰되며, 이는 대규모 클러스터 운영의 운영 복잡도를 낮추는 핵심 요소로 작용한다.

랙 규모의 통합 설계는 전력 공급 체계의 안정성 문제까지 해결한다. 전원 셸프(Power Shelf)의 온보드 에너지 저장 용량을 기존보다 6배 증가시켜 지능형 전력 스무딩(Power Smoothing) 기능을 구현했다. 이는 급격한 부하 변동이 발생했을 때 랙 자체는 물론 데이터 센터 전체의 전력 그리드에 가해지는 충격을 완화하는 완충 지대 역할을 수행한다. 조 단위 파라미터 모델의 추론 과정에서 발생하는 불규칙한 전력 수요를 하드웨어 수준에서 제어함으로써 시스템의 회복 탄력성을 높인 것이다. 이러한 전력 및 냉각 최적화는 단순히 운영 비용을 줄이는 것을 넘어, 에이전틱 AI(Agentic AI, 스스로 목표를 설정하고 실행하는 AI)나 긴 문맥 처리 작업과 같은 고부하 워크로드에서도 중단 없는 서비스 제공을 가능하게 하는 물리적 기반이 된다.

Jetson Thor, 이전 세대 Orin 대비 연산 성능 7.5배 향상

이전 세대인 Jetson Orin(젯슨 오린, 엔비디아의 엣지 AI 플랫폼)과 비교했을 때, 개발팀이 공개한 수치는 확연한 격차를 보인다. Jetson Thor(젯슨 토르)는 NVIDIA Blackwell(엔비디아 블랙웰) GPU 아키텍처를 도입하며 최대 2,070 FP4 teraflops(테라플롭스, 초당 1조 번의 부동 소수점 연산)의 AI 성능을 구현했다. 이는 연산 성능 면에서 Orin 대비 7.5배 향상된 수치로 관찰된다. 특히 FP4 정밀도 지원을 통해 데이터 처리량을 극대화함으로써, 엣지 단에서 처리 가능한 모델의 파라미터 규모와 추론 속도가 근본적으로 변화했다는 점에 주목해야 한다.

전력 소모와 효율의 균형점 역시 재설정되었다. Jetson Thor는 40W에서 130W 사이에서 구성 가능한 컴팩트 모듈 형태로 제공되며, 에너지 효율은 이전 세대보다 3.5배 높아졌다. 엣지 디바이스의 특성상 전력 공급의 한계가 명확한 상황에서 전성비(전력 대비 성능 비율)의 향상은 하드웨어 설계의 제약을 낮추는 핵심 요소가 된다. 특히 물리적 AI(Physical AI, 실제 환경에서 상호작용하는 AI)와 자율 주행 로봇의 경우, 제한된 배터리 용량 내에서 더 복잡한 신경망을 구동해야 하므로 이러한 효율 개선은 실무적인 가치가 크다. 전력 구성의 유연성은 다양한 폼팩터의 기기에 최적화된 전력 프로필을 적용할 수 있게 한다.

6개월 뒤 온디바이스(On-device) AI 모델의 배포 전략은 이 변화로 인해 크게 바뀔 가능성이 높다. 기존에는 연산량 제한으로 인해 모델을 극도로 경량화하거나 클라우드 서버에 의존하는 하이브리드 방식을 택했으나, 이제는 생성형 AI를 스마트 로봇이나 의료 기기, 산업용 시스템에 직접 탑재하는 구조가 가능해진다. 메모리 최적화와 런타임 성능의 극대화가 가능해지면서, 실시간성이 강조되는 자율 기계의 제어 루프 내에 더 무거운 추론 모델을 통합하는 코드가 작성될 것으로 보인다. 이는 추론 파이프라인에서 병목이 되었던 데이터 전송 지연을 줄이고, 로컬 환경에서 즉각적인 판단과 실행이 이루어지는 구조로의 전환을 의미한다. 이미 수백 개의 애플리케이션에서 생산 단계에 진입했다는 점은 이 플랫폼이 단순한 실험실 수준의 성능 향상이 아니라 실제 양산 환경의 요구사항을 충실히 반영하고 있음을 뒷받침한다.

Alpamayo가 해결하는 자율주행의 '롱테일' 추론 문제

기존 자율주행 모델이 가장 취약한 지점은 보행자가 모호한 수신호를 보내거나 신호등과 노면 표시가 서로 충돌하는 상황이다. 전형적인 학습 데이터셋만으로는 해결할 수 없는 이러한 롱테일 시나리오는 단순한 패턴 인식만으로는 대응이 불가능하며 사고로 이어질 가능성이 높다. 엔비디아가 제안하는 Alpamayo는 이를 해결하기 위해 단순 학습을 넘어 CoT(Chain-of-Thought, 생각의 사슬) 추론 방식을 도입한 시각-언어-행동 모델을 활용한다. Alpamayo 1과 Alpamayo 1.5는 100억 개의 파라미터를 가진 모델로, 주변 상황을 시각적으로 인식한 뒤 이를 언어적 논리로 분석하고 최종 행동을 결정하는 구조를 가진다. 예를 들어 도로에 일부 걸쳐 정차한 비상 차량을 추월해야 하는 상황에서 모델은 단순히 장애물을 피하는 것이 아니라 현재 도로의 법적 우선순위와 안전 거리를 단계적으로 추론하며 최적의 경로를 생성하는 방식이 관찰된다.

고품질의 데이터와 정교한 검증 환경의 결합에서 이러한 추론 능력의 핵심이 도출된다. Alpamayo 플랫폼은 1,700시간 이상의 주행 데이터가 포함된 NVIDIA Physical AI Open Datasets를 통해 다양한 지형과 기상 조건에서의 기초 지식을 학습한다. 여기에 오픈소스 엔드투엔드 시뮬레이션 프레임워크인 AlpaSim(알파심)이 결합되어 실제 도로에서 구현하기 위험하거나 희귀한 예외 시나리오를 가상 환경에서 무한히 반복 학습할 수 있는 체계를 제공한다. 개발자는 AlpaSim을 통해 모델이 특정 롱테일 상황에서 어떤 추론 과정을 거쳐 오판했는지 논리적 단계를 추적하고 이를 다시 데이터셋에 반영하여 모델을 정교화하는 피드백 루프를 구축할 수 있다.

자율주행 제어 로직의 구조적 전환은 실무 관점에서 이 변화가 가져오는 가장 큰 의미다. 과거에는 수많은 예외 상황을 개발자가 직접 if-else 문 형태의 하드코딩된 규칙으로 정의하며 엣지 케이스를 메워왔다면 이제는 VLA(Vision-Language-Action, 시각-언어-행동) 모델이 상황을 언어적으로 해석하고 행동으로 연결하는 추론 기반 제어로 이동한다. 6개월 뒤의 코드베이스에서는 특정 엣지 케이스를 처리하기 위한 수천 줄의 조건문 대신 CoT 프롬프트 최적화와 시뮬레이션 기반의 가중치 업데이트가 그 자리를 대체할 것으로 보인다. 이는 단순히 벤치마크 성능 수치를 높이는 것을 넘어 자율주행 시스템이 왜 그런 행동을 했는지에 대한 설명 가능성을 확보하고 시스템의 전반적인 신뢰도를 높이는 실질적인 진전으로 분석된다.

한국 AI 인프라의 '토큰당 비용' 최적화와 로보틱스 실무 적용점

모델의 정확도보다 토큰당 추론 비용에 개발팀이 가장 민감하게 반응하고 있다. Vera Rubin NVL72(엔비디아의 랙 스케일 AI 슈퍼컴퓨터)의 도입은 이 비용 구조를 근본적으로 바꾼다. 와트당 추론 성능을 10배 높이면서 토큰당 비용을 10배 절감한다는 수치는 단순한 하드웨어 업그레이드가 아니라 서비스의 수익 모델 자체를 재설계할 수 있는 수준이다. 특히 추론 효율이 낮은 기존 인프라에서 고정비 부담을 느끼던 국내 LLM 서비스 기업들에게는 운영 비용의 획기적인 감축을 의미하며, 이는 곧 API 단가 인하를 통한 시장 점유율 확대 전략으로 연결될 가능성이 높다.

NVIDIA Groq 3 LPX(고성능 추론 가속 솔루션)와의 결합은 조 단위 파라미터를 가진 거대 모델 운용 시 발생하는 전력 효율 문제를 해결한다. 이 조합을 통해 와트당 처리량을 최대 35배까지 향상시킬 수 있다는 점은 실무적으로 매우 중요한 지점이다. 이는 데이터 센터의 전력 밀도 한계를 극복하면서도 모델의 지능 수준을 유지할 수 있는 실질적인 경로를 제시한다. 한국의 AI 팩토리(AI 모델 학습과 추론을 전문으로 수행하는 데이터 센터) 환경에서 이러한 전력 효율 최적화는 단순히 전기료를 줄이는 문제가 아니라, 동일 전력 용량 내에서 얼마나 더 많은 토큰을 생성하고 더 많은 사용자를 수용할 수 있는가라는 확장성 문제와 직결된다.

데이터 센터를 넘어 물리적 공간으로 추론의 최적화가 확장되고 있다. Jetson Thor(엣지 AI 및 로보틱스용 컴퓨팅 플랫폼)는 생성 AI를 스마트 로봇과 의료 기기, 산업용 자율 기계에 직접 이식하는 핵심 도구가 된다. 이전 세대인 Jetson Orin 대비 연산 성능은 7.5배, 에너지 효율은 3.5배 향상되어 엣지 단에서도 복잡한 생성 AI 모델의 실시간 추론이 가능해졌다. 이는 제조 현장의 로봇이 단순 반복 작업을 넘어 상황을 인지하고 판단하는 지능형 자율 기계로 진화하는 속도를 결정짓는다. 실무적으로는 온디바이스 AI의 제약이었던 전력 소비와 발열 문제를 해결함으로써 의료 및 산업 현장의 실시간 응답성을 확보하는 결과로 이어진다. 특히 정밀한 제어가 필요한 의료 기기나 고위험 환경의 산업용 로봇에서 생성 AI 기반의 추론 능력이 결합될 때, 기존의 규칙 기반 제어 시스템이 해결하지 못한 예외 상황 대응 능력이 비약적으로 상승할 것으로 관찰된다.