토큰 비용 5배 낮췄다, 엔비디아 블랙웰 소프트웨어 스택의 실체

AI 팩토리의 핵심 지표, 피크 사양에서 토큰당 비용으로의 전환

기업들이 AI 파일럿 단계를 넘어 실제 서비스 생산 환경인 AI 팩토리로 전환하며 인프라 결정 기준을 칩의 피크 사양에서 토큰당 비용(Cost per Token)으로 변경했다. 피크 사양은 칩이 낼 수 있는 이론적 최대 성능을 의미하지만, 실제 운영 환경에서는 투입된 달러당, 소모된 와트당, 그리고 요구되는 지연 시간(Latency) 내에 얼마나 많은 유효 토큰을 전달할 수 있는지가 핵심 가치가 된다.

엔비디아는 GPU, CPU, 네트워킹, 시스템을 통합 설계하고 오픈소스 생태계와 결합한 풀스택 추론 소프트웨어를 통해 하드웨어 성능을 지속적으로 개선했다. 이러한 접근 방식은 단순한 하드웨어 성능 수치를 넘어 실제 서비스 운영 시 발생하는 비용 효율성을 극대화하는 데 집중한다. 이제 인프라의 경쟁력은 칩 자체의 스펙보다 소프트웨어 스택이 하드웨어의 잠재력을 얼마나 실제 토큰 출력량으로 변환하느냐에 따라 결정된다.

블랙웰 플랫폼과 DeepSeek V4가 증명한 토큰 비용 5배 절감

엔비디아는 블랙웰 플랫폼의 소프트웨어 스택을 통해 DeepSeek V4 모델의 토큰 비용을 출시 한 달 만에 최대 5배까지 낮췄다. vLLM(고효율 LLM 추론 엔진)과 SGLang(구조화된 언어 생성 프레임워크) 같은 주요 추론 프레임워크가 블랙웰 아키텍처 전용 배포 레시피를 출시 당일(Day-zero)에 제공하며 이러한 최적화를 가능하게 했다.

이 과정에서 토큰 생성 비용은 기존 수준의 약 5분의 1로 감소했다. 이는 동일한 하드웨어 자원을 사용하더라도 소프트웨어 스택의 최적화 경로가 확보되면 운영 비용을 획기적으로 줄일 수 있음을 수치로 증명한 사례다. 최신 프런티어 모델이 출시되었을 때 이를 즉시 최적화하여 배포할 수 있는 소프트웨어 생태계의 대응 속도가 실제 서비스의 경제성을 결정짓는 핵심 요소로 작용했다.

처리량 20배를 구현하는 3계층 통합 소프트웨어 구조

엔비디아의 추론 소프트웨어 스택은 생산 운영 및 모델 런타임, 커널 및 통신 라이브러리, 하드웨어 액세스라는 3개 계층을 하나의 시스템으로 연결해 전체 처리량(Throughput)을 최대 20배까지 증가시켰다. 각 계층은 모델 실행 환경 관리, 저수준 연산 함수 및 칩 간 데이터 전송, 실제 칩 레지스터 및 메모리 접근 기능을 수행하며 서로 유기적으로 결합된다.

성능 향상의 핵심은 네 가지 최적화 기술의 통합 적용에 있다. 연산 자원과 메모리 자원을 분리해 활용도를 높이는 분산 서빙(Disaggregated serving), GPU 간 초고속 데이터 전송 기술인 NVLink를 활용한 대규모 전문가 병렬화(Large expert parallelism), 4비트 부동 소수점 형식을 사용하여 연산 속도를 높이고 메모리 점유율을 낮추는 NVFP4 정밀도, 그리고 한 번의 추론 단계에서 여러 토큰을 동시에 예측하는 멀티 토큰 예측(Multi-token prediction)이 동시에 작동한다. 이 기술들이 단일 시스템으로 작동하며 개별 최적화 효과를 복리로 증폭시켜 하드웨어의 이론적 한계치에 가까운 성능을 끌어낸다.

에이전틱 AI의 복잡성을 분산 컴퓨팅 문제로 해결하는 방식

에이전틱 AI(Agentic AI)는 스스로 추론하고 계획을 세우며 전문 하위 에이전트를 생성하고 방대한 컨텍스트를 관리하는 특성 때문에 기존의 웹, 검색, SaaS 워크로드와는 완전히 다른 컴퓨팅 경로를 가진다. 기존 서비스가 정해진 소프트웨어 경로를 따라 데이터베이스를 읽고 쓰는 예측 가능한 구조였다면, 에이전틱 AI는 단일 요청을 수백 개의 하위 에이전트와 수천 개의 세부 작업으로 분화시킨다.

이러한 작동 방식은 하나의 요청을 GPU, CPU, DPU, 스토리지 시스템 전체에 걸쳐 실행되는 거대한 분산 컴퓨팅 문제로 변환한다. 소프트웨어 스택은 이 과정에서 발생하는 복잡성이 자원 낭비로 이어지지 않도록 제어하여 토큰당 비용을 낮추는 역할을 수행한다. 하드웨어 성능이 뛰어나더라도 소프트웨어 스택이 분산된 자원을 효율적으로 조율하지 못하면 연산 자원의 상당 부분이 유휴 상태로 남게 되며, 이는 곧 운영 비용의 상승으로 직결된다.

CUDA 네이티브 생태계와 오픈소스 플라이휠이 만드는 OpEx 절감

PyTorch는 2016년부터 CUDA 네이티브(하드웨어 제어 언어인 CUDA를 직접 지원하는 방식) 지원을 통해 개발자가 텐서 코어(Tensor Core), 트랜스포머 엔진(Transformer Engine), NVFP4 정밀도와 같은 최신 하드웨어 혁신 기능을 익숙한 프레임워크에서 즉시 사용할 수 있게 했다. 이를 통해 최신 연구 성과가 하드웨어 성능으로 전환되는 시간이 극단적으로 단축되었다.

구체적으로 DFlash 투기적 디코딩(다음 토큰을 미리 예측해 생성 속도를 높이는 기술)은 기존 하드웨어에서 처리량을 최대 15배 증가시켰으며, FastVideo는 1080p 고해상도 비디오를 5초 미만에 생성하는 성능을 구현했다. 이러한 최적화 기법이 PyTorch를 통해 배포되면 엔비디아 GPU에서 즉시 구동되어 토큰당 비용을 낮춘다.

결국 AI 인프라의 운영 비용(OpEx)을 결정하는 기준은 단순한 칩 교체가 아니라, 소프트웨어 스택이 하드웨어의 물리적 특성을 얼마나 빠르게 흡수하고 최적화하느냐에 있다. 개발자가 CUDA 네이티브 경로를 최적화하고, 이것이 실제 배포 사례로 이어지며, 다시 생태계로 피드백되는 '오픈소스 플라이휠' 구조가 하드웨어 성능을 실제 비용 절감이라는 결과로 변환하는 유일한 경로가 된다.