구글 클라우드, 엔비디아 루빈 GPU 탑재 A5X 인스턴스 공개…추론 비용 10분의 1로

매일 아침 AI 모델을 서빙하는 개발자라면 누구나 겪는 고민이 있다. 추론 비용을 줄이려면 성능을 포기해야 하고, 성능을 올리려면 전기세와 GPU 임대료가 감당이 안 된다. 이번 주 라스베이거스에서 열린 Google Cloud Next에서 그 딜레마를 깨는 하드웨어가 나왔다.

A5X 인스턴스, 루빈 NVL72 탑재…추론 비용 90% 감소

구글 클라우드는 엔비디아와 협력해 A5X 베어메탈 인스턴스를 발표했다. 이 인스턴스는 엔비디아의 최신 Vera Rubin NVL72 랙 스케일 시스템(서버 랙 전체를 하나의 거대한 GPU처럼 연결한 구조)으로 구동된다. 극단적인 칩-시스템-소프트웨어 공동 설계 덕분에 이전 세대(A4X, GB300 기반) 대비 토큰당 추론 비용이 10분의 1로 줄었고, 메가와트당 토큰 처리량은 10배 증가했다. A5X는 엔비디아 ConnectX-9 SuperNIC(초고속 네트워크 카드)와 차세대 구글 Virgo 네트워킹을 결합해 단일 사이트 클러스터에서 최대 8만 개의 루빈 GPU, 멀티사이트 클러스터에서는 96만 개의 루빈 GPU까지 확장 가능하다.

블랙웰부터 루빈까지…GPU 선택지 3배로 늘었다

예전에는 구글 클라우드에서 엔비디아 GPU를 쓰려면 A100이나 H100 정도가 전부였다. 이제는 선택지가 훨씬 넓어졌다. 구글의 엔비디아 블랙웰 포트폴리오는 A4 VM(HGX B200 시스템), A4X VM(GB200 NVL72), A4X Max VM(GB300 NVL72), 그리고 G4 VM(RTX PRO 6000 블랙웰 서버 에디션, GPU 일부만 쪼개서 쓸 수 있는 프랙셔널 VM)까지 아우른다. 고객은 여러 대의 NVL72 랙을 연결해 수만 개의 블랙웰 GPU로 확장하거나, 단일 랙에서 72개의 블랙웰 GPU를 5세대 NVLink(GPU 간 초고속 데이터 연결 기술)와 NVLink 5 스위치로 묶어 쓰거나, GPU 8분의 1만큼 작게 빌려 쓸 수도 있다. 이 덕분에 팀은 전문가 혼합 추론(여러 전문 모델을 조합해 추론하는 방식), 멀티모달 추론(텍스트·이미지·음성을 동시에 처리), 데이터 처리, 물리 AI 시뮬레이션(로봇이나 공장 디지털 트윈을 위한 시뮬레이션) 등 워크로드에 맞게 GPU 용량을 정밀하게 맞출 수 있다.

오픈AI와 씽킹 머신스 랩이 이미 쓰고 있다

개발자가 바로 체감하는 변화는 최전방 AI 연구소들이 이 인프라를 이미 도입했다는 점이다. Thinking Machines Lab은 A4X Max VM(GB300 NVL72)에서 자사 Tinker API(애플리케이션 프로그래밍 인터페이스)를 확장해 훈련 속도를 높이고 있다. 오픈AI는 구글 클라우드에서 엔비디아 GB300(A4X Max VM)과 GB200 NVL72 시스템(A4X VM)을 사용해 ChatGPT 등 가장 까다로운 추론 워크로드를 대규모로 실행 중이다. 또한 구글의 제미나이 모델이 엔비디아 블랙웰 및 블랙웰 울트라 GPU에서 구동되는 프리뷰가 Google Distributed Cloud(고객 데이터센터나 엣지에 직접 배포하는 구글 클라우드 서비스)에서 제공된다. 민감한 데이터를 클라우드로 보내지 않고도 최첨단 AI를 쓸 수 있게 된 셈이다.

기밀 GPU VM 첫 등장…규제 산업도 AI 쓸 길 열렸다

엔비디아 블랙웰 플랫폼의 기밀 컴퓨팅(Confidential Computing, 데이터가 처리 중에도 암호화된 상태를 유지하는 기술)이 적용돼 제미나이 모델은 프롬프트와 파인튜닝 데이터가 암호화된 채로 실행되며, 인프라 운영자조차 내용을 볼 수 없다. 퍼블릭 클라우드에서는 Confidential G4 VM(엔비디아 RTX PRO 6000 블랙웰 GPU 탑재) 프리뷰가 시작돼 멀티테넌트 환경(여러 고객이 같은 물리 서버를 나눠 쓰는 환경)에서도 동일한 보호를 제공한다. 이는 클라우드에서 엔비디아 블랙웰 GPU의 첫 기밀 컴퓨팅 상품으로, 금융·헬스케어 등 규제 산업 고객이 보안과 성능을 모두 포기하지 않고 AI를 도입할 수 있는 길이 열렸다.

네모트론 오픈 모델, 제미나이 에이전트 플랫폼에서 바로 쓴다

구글 클라우드의 엔비디아 플랫폼은 구글의 제미나이·제마 패밀리부터 엔비디아 네모트론 오픈 모델(엔비디아가 공개한 오픈웨이트 AI 모델), 그리고 더 넓은 오픈웨이트 생태계까지 모든 종류의 모델을 지원한다. 엔비디아 네모트론 3 Super는 Gemini Enterprise Agent Platform(기업용 AI 에이전트 개발 플랫폼)에서 바로 사용 가능해, 개발자는 추론 및 멀티모달 모델을 발견·커스터마이징·배포할 수 있다. 또한 Managed Training Clusters(관리형 훈련 클러스터)에 새로운 관리형 강화학습 API(RL API)가 도입됐다. 이 API는 엔비디아 NeMo RL(강화학습 라이브러리)로 구축돼 클러스터 크기 조정, 장애 복구, 작업 실행을 자동화하므로 팀은 인프라 관리 대신 에이전트 행동과 모델 품질에 집중할 수 있다. 사이버보안 기업 CrowdStrike는 이미 NeMo Data Designer, NeMo Automodel, NeMo Megatron Bridge 같은 엔비디아 네모 오픈 라이브러리를 사용해 합성 데이터를 생성하고 네모트론 등 오픈 LLM(대규모 언어 모델)을 도메인 특화 파인튜닝(특정 분야에 맞게 모델을 추가 학습시키는 작업)하고 있으며, 이를 구글 클라우드의 블랙웰 GPU 기반 관리형 훈련 클러스터에서 실행 중이다.

물리 AI와 산업용 AI를 본격적으로 구축하려면 강력한 하드웨어와 오픈 모델·라이브러리·프레임워크의 조합이 필수다. 구글과 엔비디아는 이번 발표로 그 조합을 단순히 제품 카탈로그에 나열하는 것을 넘어, 실제 연구소와 기업이 지금 당장 쓸 수 있는 상태로 만들었다.