추론 단계 진입과 엔비디아의 신규 비즈니스 모델

AI를 도입하면 개발 비용이 획기적으로 줄어들 것이라고 믿었다. 하지만 실제 현장에서는 모델을 만드는 것보다 만든 모델을 실제로 돌려 결과값을 내놓는 과정에서 더 막대한 자원이 소모된다는 사실이 드러났다. 엔비디아는 이러한 생산 추론(production inference, 학습된 모델을 사용해 결과값을 내놓는 과정) 단계로의 중심축 이동에 맞춰 인프라 조달 방식을 바꾸는 새로운 비즈니스 모델을 도입했다.

AI 서비스의 중심은 이제 모델 개발이라는 실험실 단계를 지나, 대규모 토큰을 지속적으로 생성하는 생산 단계로 빠르게 이동하고 있다. 이 과정에서 AI 연산을 전문적으로 수행하는 데이터 센터인 AI 팩토리(AI factory) 수요가 급증하고 있다. 토큰 규모의 AI 서비스를 상업적으로 운영하려면 다수의 사용자가 동시에 접속하는 환경에서도 빠르게 응답할 수 있는 대규모 멀티테넌트 가속 컴퓨팅(multi-tenant accelerated computing, 여러 사용자가 독립된 환경에서 자원을 공유하는 고성능 연산 체계) 자원이 필요하다. 특히 인프라가 빠르게 가동되어야 하며, 높은 가동률을 유지하면서도 운영 비용을 최적화해야 하는 경제적 요구사항이 강해졌다.

기존의 AI 인프라 구축은 막대한 초기 자본이 투입되는 자본 집약적 구조였기에 많은 기업이 진입 장벽을 느꼈다. 엔비디아는 이를 해결하기 위해 스타트업, 모델 빌더, 기업, 연구 기관, 그리고 지역 AI 플레이어를 대상으로 하는 새로운 컴퓨팅 접근 모델을 제시했다. 이 모델은 인프라 조달의 경제적 이해관계를 조정하여, 자본력이 부족한 신생 AI 기업이나 특정 지역의 사업자들도 대규모 연산 자원에 접근할 수 있도록 돕는다. 결과적으로 모델 빌더나 에이전트 플랫폼 기업들은 인프라 구축에 드는 시간적, 재무적 리스크를 줄이면서 서비스 규모를 확장할 수 있는 경로를 확보하게 됐다.

이러한 변화는 AI 모델의 생애주기가 학습에서 사후 학습, 미세 조정, 그리고 최종적인 대량 추론으로 이어지는 흐름을 반영한다. 특히 파일럿 단계의 서비스가 실제 상업적 생산 단계로 전환될 때 필요한 상업적 유연성을 제공하는 것이 이번 모델의 핵심이다. 사용자가 늘어남에 따라 컴퓨팅 수요가 기하급수적으로 증가하는 상황에서, 신뢰할 수 있는 가속 컴퓨팅 자원 확보 여부는 이제 글로벌 AI 경쟁력을 결정짓는 핵심 변수로 작용하고 있다.

수익 공유와 신용 지원을 통한 인프라 조달 구조

고성능 GPU 한 대의 가격은 수천 달러에 달하며 이를 수만 대 규모로 구축하려면 초기 자본만 수조 원이 필요하다. 엔비디아는 이러한 자본 진입 장벽을 낮추기 위해 수익 공유(revenue-sharing)와 신용 지원(credit-support) 모델을 도입했다. 수익 공유는 인프라 운영에서 발생하는 매출을 나누는 방식이며 신용 지원은 초기 조달 비용의 부담을 완화하는 금융적 뒷받침을 의미한다. 이 모델을 통해 AI 클라우드 사업자는 막대한 초기 비용을 혼자 감당하지 않고 엔비디아와 경제적 이해관계를 일치시켜 인프라를 조달한다. 자본 조달 능력이 부족한 사업자도 엔비디아의 지원 체계 안에서 대규모 가속 컴퓨팅 자원을 확보할 수 있는 경로가 열린 셈이다.

구체적인 작동 방식은 파트너십 기반의 서비스 판매 구조를 가진다. AI 클라우드 사업자가 엔비디아의 인프라를 조달하여 이를 AI 네이티브 기업이나 일반 기업 고객에게 클라우드 서비스 형태로 판매한다. 엔비디아는 하드웨어 제품을 판매하며 얻는 표준 제품 매출 외에 추가적인 수익원을 확보한다. 지원된 컴퓨팅 용량에서 발생하는 클라우드 매출의 일부를 엔비디아가 함께 가져가는 구조다. 이는 단순한 부품 공급 계약을 넘어 하드웨어의 가동률과 서비스 매출이 엔비디아의 이익과 직결되는 구조적 결합이다. 하드웨어 판매 시점에 수익이 종료되는 것이 아니라 서비스가 운영되는 전 기간에 걸쳐 수익이 발생한다.

이러한 구조는 엔비디아에게 사용량과 연동된 반복적 수익 흐름(recurring, usage-linked earnings stream)을 제공한다. 반복적 수익 흐름은 일회성 판매가 아니라 서비스 이용량에 따라 지속적으로 발생하는 수입을 뜻한다. 인프라가 실제로 가동되고 고객이 연산을 수행하며 자원을 소비할수록 엔비디아의 수익이 함께 증가하는 방식이다. 이는 하드웨어 보급 속도를 높이는 동시에 제품 판매 이후의 운영 단계에서도 안정적인 매출을 확보하는 전략적 장치가 된다. 특히 사용량에 기반한 수익 모델은 인프라의 실제 활용도를 높이려는 동기를 제공하며 이는 다시 더 많은 하드웨어 수요로 이어지는 선순환 구조를 만든다.

AI 클라우드 사업자는 인프라 확장 리스크를 줄이고 엔비디아는 시장 점유율과 지속 가능한 수익 모델을 동시에 챙긴다. 하드웨어 판매라는 단발성 거래를 넘어 서비스 이용이라는 실사용 지표에 수익을 연동함으로써 양측의 성장 방향을 일치시켰다. 이는 대규모 자본 투입이 필요한 인프라 산업에서 금융 구조의 설계를 통해 기술 보급 속도를 물리적으로 앞당긴 사례다. 이제 AI 인프라 구축은 단순한 구매의 문제가 아니라 수익 배분과 리스크 분담이라는 비즈니스 모델의 설계 문제로 전환되었다.

전통적 구축 방식 대비 가속 컴퓨팅 접근 속도 비교

기업이 대규모 AI 모델을 구동하기 위해 자체 데이터 센터를 짓는다면 물리적으로 얼마나 많은 시간이 소요될까. 기존의 인프라 구축 방식은 적합한 부지를 선정하고 전력 조달 계획을 세운 뒤 실제 건물을 건설하고 하드웨어를 설치하는 bring-up(장비를 가동 가능한 상태로 설정하는 과정) 단계를 순차적으로 거쳐야 한다. 특히 전력 조달은 지역 전력망의 용량 확인과 변전소 설치 협의, 환경 영향 평가 등 외부 행정 절차에 전적으로 의존하므로 예측 불가능한 지연이 빈번하게 발생한다. 초기 자본 투입 규모가 매우 크기 때문에 신생 AI 기업이 감당해야 할 재무적 리스크가 극대화되는 구조다.

엔비디아가 도입한 신규 모델은 이러한 물리적 절차를 생략하고 풀스택 가속 컴퓨팅(full-stack accelerated computing, 하드웨어부터 소프트웨어까지 최적화된 연산 환경)에 즉시 접근하는 경로를 제공한다. 기업은 부지 선정이나 전력 조달 같은 하부 인프라 구축 단계 없이 이미 최적화가 완료된 가속 컴퓨팅 자원을 바로 활용한다. 하드웨어 설치와 네트워크 설정뿐 아니라 CUDA 라이브러리와 같은 소프트웨어 스택의 최적화 과정이 이미 완료된 환경을 사용하므로 실제 연산 시작까지의 대기 시간이 사라진다. 직접 구축 시 발생하는 시간적 공백과 자본 리스크를 제거하여 인프라 확보 기간을 획기적으로 단축했다.

자본 집약적인 인프라 확보는 그동안 신생 AI 기업들이 겪어온 가장 높은 진입 장벽이었다. 대규모 GPU 클러스터를 구축하려면 천문학적인 초기 비용이 필요하며, 설령 장기 이용 계약을 맺더라도 이를 담보로 한 금융 조달 과정에서 신용도 문제나 담보 부족으로 한계에 부딪히는 사례가 많았다. 이번 모델은 하드웨어 구매 비용을 일시에 지불하는 전통적 방식 대신 수익 공유 및 신용 지원 체계를 통해 인프라 접근성을 높였다. 인프라를 직접 소유하고 관리하는 운영 부담을 덜고 필요한 컴퓨팅 용량을 빠르게 확보하는 방향으로 금융 조달 구조를 설계했다.

이러한 접근 방식의 변화는 AI 기업이 데이터 센터 건설이라는 물리적 제약에서 벗어나 모델 학습과 추론이라는 본질적인 개발 단계로 빠르게 진입하게 만든다. 부지 선정부터 하드웨어 가동까지 소요되던 수개월 혹은 수년의 시간을 절약하고 제품의 시장 출시 속도를 높이는 실질적인 이득을 얻는다. 인프라 조달 방식의 변화가 단순한 비용 절감을 넘어 기술 구현의 속도를 결정하는 핵심 변수로 작동한다.

GB300 4만 대와 360MW급 AI 팩토리 실현 사례

데이터 센터를 짓기 위해 수년의 시간을 들여 부지를 찾고 전력 공급원을 협상하는 일은 기업에게 거대한 도박과 같다. 샤론 AI는 이러한 물리적 제약을 넘기 위해 엔비디아의 새로운 비즈니스 모델을 선택했다. 이들은 최대 40,000대의 NVIDIA Grace Blackwell GB300 GPU를 배치한다. GB300은 CPU와 GPU를 하나의 보드에 통합해 데이터 전송 효율을 극대화한 최신 가속기다. 4만 대라는 수치는 단일 기업이 단기간에 확보하기 어려운 규모의 연산력을 의미하며, 이를 통해 특정 국가나 지역이 외부 의존 없이 운영하는 소버린 AI, 즉 독립적인 AI 컴퓨팅 인프라를 구축하는 것이 가능하다.

인도네시아 바탐에는 더 거대한 규모의 인프라가 들어선다. 퍼머스는 이곳에 DSX AI 팩토리 캠퍼스를 구축하고 있다. AI 팩토리는 단순한 데이터 저장소가 아니라 AI 연산을 전문적으로 수행하는 공장형 데이터 센터를 뜻한다. 이 캠퍼스의 전력 용량은 360메가와트(MW)에 달하며, 향후 최대 170,000대의 NVIDIA GPU까지 확장할 계획이다. 360MW는 일반적인 데이터 센터 수십 개를 동시에 가동할 수 있는 막대한 전력량이다. 17만 대의 GPU가 집적된 환경은 전 세계에서 가장 밀집된 연산 자원 중 하나가 되며, 이는 초거대 모델의 추론 요청을 실시간으로 처리하는 기반이 된다.

이러한 대규모 자원 확보는 Baseten, Fireworks AI, Together AI 같은 AI 네이티브 기업들의 실제 수요와 맞물린다. 이들은 모델 학습부터 사후 학습(post-training, 기본 학습 후 성능을 고도화하는 과정), 미세 조정(fine-tuning, 특정 목적에 맞게 모델을 최적화하는 과정)을 거쳐 대량의 에이전트 추론 단계로 빠르게 진입해야 한다. 에이전트 추론은 AI가 단순 답변을 넘어 스스로 판단해 복잡한 작업을 수행하는 고부하 연산 과정이다. 파일럿 단계에서 실제 서비스 생산 단계로 전환될 때 발생하는 급격한 트래픽 증가를 감당하려면, 하드웨어 확장이 즉각적으로 이루어지는 상업적 유연성이 필수적이다.

결과적으로 기업은 부지 선정과 전력 조달, 건설과 하드웨어 설치라는 전통적인 구축 경로를 생략하고 풀스택 가속 컴퓨팅에 접근한다. 풀스택 가속 컴퓨팅은 하드웨어부터 소프트웨어까지 최적화된 연산 환경을 의미한다. 샤론 AI와 퍼머스의 사례는 자본 집약적인 인프라 구축의 진입 장벽이 낮아졌음을 보여준다. 데이터 센터를 직접 건설하지 않고도 대규모 가속 컴퓨팅 자원을 빠르게 확보하는 경로가 실현되었으며, 이는 AI 기업들이 인프라 고민 대신 모델의 성능과 서비스 구현에 집중할 수 있는 환경을 만든다.

한국 AI 실무자를 위한 인프라 확보 및 운용 시사점

GPU 서버 한 대를 확보하기 위해 수개월을 기다렸지만, 정작 서비스가 출시되어 사용자가 몰렸을 때 늘릴 자원이 없어 고객을 놓친 팀의 사례는 흔하다. Baseten, Fireworks AI, Together AI 같은 AI 네이티브 기업(AI를 핵심 기술로 서비스를 구축하는 기업)의 수요 패턴은 이러한 리스크를 명확히 보여준다. 이들은 모델 학습에서 시작해 사후 학습(post-training, 사전 학습된 모델을 특정 목적에 맞게 정교화하는 과정)을 거치고, 미세 조정(fine-tuning, 특정 데이터셋으로 모델의 성능을 최적화하는 작업)을 수행한 뒤 대량의 에이전트 추론(agentic inference, AI 에이전트가 스스로 판단해 복잡한 과업을 수행하는 과정) 단계로 진입한다. 각 단계마다 필요한 연산 자원의 규모와 성격이 다르며, 특히 추론 단계에서는 대규모의 일관된 성능 유지가 필수적이다.

파일럿 단계에서는 소규모 자원으로 가설 검증이 가능하지만, 실제 생산 단계로 전환될 때는 기하급수적인 자원 증가가 필요하다. 이때 Baseten이나 Together AI의 고객들이 요구하는 핵심은 상업적 유연성(commercial flexibility, 사용량이나 서비스 규모에 따라 계약 조건과 비용 구조를 유연하게 변경할 수 있는 능력)이다. 하드웨어를 직접 구매해 구축하면 초기 투자 비용이 너무 크고, 고정된 계약 방식은 급격한 트래픽 변화에 대응하기 어렵다. 생산 단계에서 자원 확보 속도가 늦어지면 서비스 응답 속도가 느려지거나 시스템이 중단되는 품질 저하로 이어진다. 유연한 인프라 조달 체계는 이러한 전환기 비용과 리스크를 낮춘다.

대규모 가속 컴퓨팅(accelerated computing, GPU 등을 활용해 연산 속도를 극대화한 환경) 자원에 대해 신뢰할 수 있는 접근 권한을 가졌는지가 글로벌 경쟁력의 핵심 변수가 된다. 데이터 센터 부지를 선정하고 전력을 확보하며 하드웨어를 설치하는 물리적 시간을 기다리는 팀은 시장 진입 시점을 놓친다. 인프라 조달의 병목을 해결하고 즉각적으로 연산 용량을 확장할 수 있는 경로를 확보한 기업만이 모델 성능 경쟁에서 우위를 점한다. 이는 단순한 비용 절감이 아니라 제품 출시 주기와 시장 점유율을 결정하는 속도전의 문제다. 신뢰할 수 있는 인프라 접근권은 모델의 논리적 완성도를 실제 서비스 가치로 전환하는 최종 관문이다.

수조 원의 초기 자본과 전력 확보라는 물리적 장벽은 더 이상 대규모 컴퓨팅 자원 확보의 절대적 제약이 아니다. 엔비디아가 도입한 수익 공유와 신용 지원 모델은 샤론 AI의 GB300 4만 대 도입이나 퍼머스의 360MW급 AI 팩토리 사례처럼 인프라 조달의 속도를 결정짓는 실질적인 경로를 증명했다.

이제 기업은 데이터 센터를 직접 건설하는 전통적 방식과 리스크를 분담하는 신규 모델 중 서비스 확장 속도에 적합한 경로를 판단하여 선택해야 한다. 결국 AI 인프라 경쟁력은 단순한 자본의 규모가 아니라 수익 구조를 어떻게 설계하느냐에 따라 결정된다.