토큰 단가 낮추는 'AI 팩토리', 엔비디아 클라우드 생태계 6대륙 확장

6대륙 확장과 6개 'Exemplar Cloud' 파트너 선정

데이터 센터와 사용자의 물리적 거리가 멀면 응답 속도가 느려지고 전송 비용이 증가한다. 엔비디아는 이를 해결하기 위해 NVIDIA AI Clouds를 전 세계 6대륙으로 확장했다. 최근 아프리카의 카사바(Cassava)와 남미의 클라로(Claro)가 파트너로 추가되며 모든 대륙에 거점을 확보했다. 이는 기업과 국가들이 지역 내 컴퓨팅 용량을 확보하려는 수요가 급증했기 때문이다. 특히 AI 에이전트, 엔터프라이즈 코파일럿, 디지털 워커 서비스가 데이터 발생지와 가까운 곳에서 작동해야 서비스 마찰을 줄일 수 있다.

엔비디아는 인프라 확장을 넘어 서비스 성능 검증 단계로 전환했다. 작년부터 고성능 클라우드 기준을 제시하며 엑셈플러 클라우드(Exemplar Cloud) 지위를 부여하고 있다. 현재 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 벌처(Vultr), YTL 등 6개 파트너사가 이 지위를 획득했다. 이들은 실제 프로덕션 AI 워크로드에서 일관된 성능과 신뢰성, 효율성을 입증한 사업자들이다. 엑셈플러 클라우드 파트너들은 학습, 추론, 에이전트 AI 서비스를 확장하려는 기업과 AI 랩에 검증된 인프라 옵션을 제공한다.

글로벌 거점 확대는 AI 팩토리의 물리적 접근성을 높이는 방향으로 진행된다. 코어위브, 퍼머스(Firmus), IREN, 엔스케일(Nscale) 등은 프론티어 모델 개발과 고용량 추론 수요를 맞추기 위해 인프라를 확장하고 있다. 젠슨 황(Jensen Huang) CEO는 모든 회사와 국가가 데이터를 지능으로 바꾸기 위해 AI 팩토리 인프라가 필요하다고 밝혔다. AI 팩토리는 모델 학습을 넘어 실시간 추론과 피지컬 AI(Physical AI), AI 에이전트가 작동하는 기반이 되며, 지역과 산업 현장에 가깝게 배치될 때 조직의 업무 방식을 바꿀 수 있다.

NVIDIA DSX와 액체 냉각 HyperCube의 설계 구조

인프라 구축 관점이 개별 GPU 서버 도입에서 전력과 냉각을 통합 설계하는 팩토리 관점으로 바뀌었다. 펌서스(Firmus)는 엔비디아 DSX(AI 팩토리 설계 및 운영 플랫폼)를 도입해 설계부터 배포, 운영 전 과정을 최적화했다. 설계 단계에서 전력 효율을 계산하고 배포 경로를 단순화해 운영 낭비를 줄이는 방식이다. 여기에 액체 냉각 방식의 하이퍼큐브(HyperCube)를 결합해 구축 속도를 높였다. 하이퍼큐브는 냉각 시스템과 서버 랙을 모듈 단위로 구성해 현장 설치 시간을 줄이고 전력 소모를 억제한다. 하드웨어 설계를 표준화해 구축 기간을 단축하고 토큰당 비용을 낮추는 물리적 구조를 구현했다.

최신 칩셋의 도입 주기와 적용 범위도 빨라졌다. 코어위브(CoreWeave)와 네비우스(Nebius)는 엔비디아 베라 루빈(Vera Rubin)과 베라 CPU(Vera CPU)를 조기에 도입해 서비스 인프라에 적용했다. 이는 실리콘 단계부터 소프트웨어 최적화까지 통합한 풀스택 설계의 결과다. CPU와 GPU 사이의 데이터 교환 경로를 최적화해 연산 지연을 줄이고 전력 효율을 높여 토큰 생산 속도를 극대화하는 데 집중했다.

수백만 개의 GPU를 하나의 컴퓨터처럼 작동하게 만드는 네트워크 기술이 핵심이다. 코어위브는 엔비디아 스펙트럼-X 이더넷 포토닉스(Spectrum-X Ethernet Photonics)를 도입했다. 전기 신호 대신 광학 기술을 활용해 데이터 전송 속도를 높이고 신호 손실을 최소화함으로써 백만 GPU 규모의 AI 팩토리를 안정적으로 연결했다. 이제는 개별 서버의 연산 속도보다 서버 간 데이터 전송 병목을 해결하는 것이 대규모 AI 팩토리의 가동률과 토큰 생산 경제성을 결정한다.

'보유 용량'에서 '토큰당 비용(Cost per Token)'으로의 지표 전환

이러한 하드웨어 최적화는 인프라를 평가하는 핵심 지표의 변화로 이어진다. 과거에는 기업이 발표하는 전체 컴퓨팅 용량(Capacity announced)이 시장 신뢰의 기준이었으나, 현재는 플랫폼 가동률, 업타임, 자산 수명을 종합적으로 고려한 토큰 출력 경제성(Economics of token output)으로 이동했다. 하드웨어 보유량보다 자원을 통해 얼마나 많은 토큰을 중단 없이 효율적으로 생산하느냐가 더 중요한 기준이 됐다.

인프라 경제성을 평가하는 구체적인 잣대는 토큰당 비용(Cost per token)이라는 총소유비용(TCO) 메트릭이다. 이 지표는 하드웨어 구매가뿐만 아니라 소프트웨어 최적화 수준, 생태계 지원 역량, 운용 효율을 모두 합산해 계산한다. 이에 따라 인프라 설계 목표는 와트당 최대 처리량(Best throughput per watt)을 달성하는 것으로 구체화된다. 전력 소비 1와트당 더 많은 토큰을 처리해야 운영 비용을 낮추고 서비스 수익성을 확보할 수 있기 때문이다.

지표가 변한 이유는 AI 활용 단계가 모델 개발에서 추론과 고볼륨 인퍼런스(High-volume inference) 단계로 진입했기 때문이다. 특히 스스로 판단하고 작업을 수행하는 에이전트 AI(Agentic AI) 수요가 증가하며 산업적 규모의 토큰 수요가 폭발했다. 학습 단계에서는 일시적인 컴퓨팅 파워 집중이 중요했지만, 수많은 에이전트가 실시간으로 작동하는 환경에서는 토큰 생성 단가가 서비스의 생존 가능성을 결정한다. 추론 비용 효율성이 낮으면 사용자가 늘어날수록 적자가 커지기 때문이다.

이제 인프라 운영사는 GPU 확보라는 양적 경쟁에서 토큰 생산 단가를 낮추는 질적 효율화 경쟁으로 방향을 틀었다. 가동률 극대화, 업타임 확보, 자산 수명 연장을 통한 감가상각비 절감이 핵심 경로가 된다. 이는 AI 인프라를 데이터와 전력을 투입해 토큰을 찍어내는 'AI 팩토리'로 바라봐야 하는 이유이며, 인프라 평가 기준이 규모에서 효율 중심으로 바뀌었음을 보여준다.

에이전트 AI와 피지컬 AI를 위한 전용 워크벤치

펌퍼스(Firmus)의 공동 CEO 팀 로젠필드는 에이전트 AI가 토큰에 대한 새로운 산업적 규모의 수요를 창출하고 있다고 밝혔다. 특히 아시아 태평양 지역에서는 이를 감당하기 위해 기가와트(GW) 규모의 인프라 구축이 필수적이며, 액체 냉각 기술을 통한 효율적 운영과 빠른 구축 속도가 핵심 경쟁력이 됐다. 이는 복잡한 추론을 수행하는 에이전트 AI가 실제 산업 현장의 서비스 단계에 진입했음을 보여준다.

코어위브(CoreWeave)는 에이전트 AI, 피지컬 AI, 프론티어 모델 워크로드를 지원하는 전용 플랫폼을 확장했다. 앤스로픽(Anthropic)을 포함한 주요 AI 랩들은 코어위브 인프라를 기반으로 프론티어 모델을 실전 배치하고 있다. 특히 엔비디아 코스모스 3(NVIDIA Cosmos 3)를 도입해 합성 데이터를 생성하고 로보틱스 데이터 플라이휠을 가속화하는 공정을 구축했다. 코어위브 CEO 마이클 인트레이터는 성능, 규모, 신뢰성을 갖춘 풀스택 인프라가 AI 에이전트와 피지컬 AI 시스템을 실제 생산 애플리케이션으로 전환하는 토대가 된다고 강조했다.

네비우스(Nebius)는 엔비디아 아이작 심(NVIDIA Isaac Sim)과 아이작 GR00T(NVIDIA Isaac GR00T)를 통합한 피지컬 AI 워크벤치(Physical AI Workbench)를 공개했다. 이 워크벤치는 AI 에이전트가 도구, 데이터, 컴퓨팅 자원을 직접 조합하는 컴포저블 워크플로우를 제공한다. 로보틱스와 자율 주행 개발팀은 시뮬레이션 및 합성 데이터 생성에서 실제 훈련 및 평가 단계로 넘어가는 시간을 단축했다. 네비우스 CEO 아르카디 볼로즈는 개발자가 인프라 연결에 시간을 소비하지 않고 로보틱스, 생명 과학, 기업용 AI 실험에서 생산으로 즉시 이동하는 환경을 구축했다고 설명했다.

네이버클라우드와 소버린 AI의 지역적 컴플라이언스

엔비디아 AI 클라우드가 6대륙으로 확장되는 과정에서 각 국가의 데이터 주권 요구는 구체적인 제약 조건이 됐다. 네이버클라우드(Naver Cloud)를 포함한 지역 파트너사들이 소버린 AI(Sovereign AI) 지원 체계를 구축한 이유다. 단순한 자원 제공을 넘어 국가별 규제와 데이터 통제권을 보장하는 지역 밀착형 AI 클라우드 거점이 도입의 전제 조건이 됐다.

정부 기관과 규제 산업은 데이터가 국경을 넘지 않는 소버린 컨트롤과 현지 컴플라이언스(Compliance) 충족을 최우선으로 한다. 지역 AI 클라우드는 데이터 저장소와 연산 자원을 해당 국가 내에 배치해 외부 유출을 차단하고 현지 법령을 즉각 반영하는 구조로 이를 해결한다. 이는 공공 부문과 금융권이 AI 모델을 도입할 때 보안 심사와 규제 검토를 통과하기 위한 필수 기술적 토대가 된다.

AI 팩토리를 데이터와 사용자가 위치한 지역에 배치하면 네트워크 지연 시간이 단축되어 서비스 품질이 향상된다. 이는 금융 서비스의 실시간 이상 거래 탐지, 제조 공정의 즉각적 최적화, 의료 데이터의 민감한 처리 등 실시간 응답성이 핵심인 산업 현장에서 결정적인 요소가 된다. 지역 특화 산업 생태계가 고도화되려면 인프라가 산업 현장과 데이터 발생지 곁에 놓여야 한다.

이러한 전략은 산업별 특수성을 반영한 맞춤형 인프라 제공으로 이어진다. 금융, 제조, 교육, 의료 등 지역 주력 산업이 요구하는 데이터 처리 방식과 보안 수준은 국가마다 다르다. 지역 파트너사는 현지 특성을 반영한 AI 팩토리를 운영해 기업들이 데이터 이전 부담 없이 AI 에이전트나 기업용 코파일럿을 구축하도록 돕는다. 인프라 경쟁력은 글로벌 통합 용량이 아니라 지역적 규제와 산업적 요구를 얼마나 정밀하게 충족하느냐로 이동하고 있다.

엔비디아 AI 클라우드가 아프리카의 카사바(Cassava)와 남미의 클라로(Claro)를 포함해 전 세계 6대륙으로 확장됐다. 엔비디아 DSX 플랫폼의 액체 냉각 기술인 하이퍼큐브(HyperCube)를 통해 토큰당 비용(Cost per token)을 최적화하는 구조를 실현했기 때문이다. 인프라 평가의 기준은 이제 단순 보유 용량에서 토큰 생산 단가와 가동률 중심의 경제성 지표로 전환된다. 결국 AI 인프라의 성패는 규모가 아니라 토큰 하나를 만드는 비용의 효율성에서 갈린다.