메가와트당 에이전트 20배 구동, AgentPerf가 증명한 수치

ChatGPT 같은 챗봇을 사용할 때 한 번의 질문으로 끝나지 않고 여러 번 수정 요청을 보내며 원하는 결과를 만들어가는 과정은 사용자에게 번거로운 일이다. 하지만 AI가 스스로 목표를 세분화하고 도구를 사용해 결과물을 완성하는 에이전틱 AI(Agentic AI) 환경에서는 이러한 반복 과정이 시스템 내부의 연쇄적인 호출로 전환된다. 단순한 채팅이 한 번의 호출로 끝나는 단거리 질주라면, 에이전트는 목표를 달성할 때까지 계속해서 단계를 밟아 나가는 릴레이 경주와 같다. 최근 Artificial Analysis가 공개한 에이전틱 AI 벤치마크 AgentPerf 결과에 따르면, NVIDIA GB300 NVL72는 기존 NVIDIA HGX H200 대비 메가와트당 최대 20배 더 많은 에이전트를 구동할 수 있다.

AgentPerf는 단일 LLM 호출 속도만 측정하던 기존 방식에서 벗어나, 실제 에이전트가 작업을 수행하는 궤적을 추적해 시스템에 가해지는 스트레스를 측정한다. 이번 벤치마크의 핵심 테스트 모델로 사용된 DeepSeek V4 Pro는 MoE(Mixture of Experts, 전문가 혼합 모델: 여러 개의 작은 네트워크 중 필요한 부분만 활성화해 효율을 높인 구조) 방식을 채택했다. GB300 NVL72는 이러한 MoE 모델의 특성을 극대화하여 전력 소모 1메가와트당 처리할 수 있는 에이전트 작업 수를 Hopper 기반의 HGX H200보다 20배 높였다.

이러한 전력 효율 수치는 대규모 에이전트 서비스를 운영하는 기업의 인프라 비용과 직결된다. 현재 Baseten, DeepInfra, Together AI와 같은 주요 추론 제공사들은 이미 블랙웰 기반 인프라를 도입해 DeepSeek V4 Pro 서비스를 제공하며 실제 프로덕션 환경에서의 성능을 검증하고 있다. 에이전틱 워크로드는 단순 챗봇보다 연산 복잡도가 높으므로, 가속기 개수보다 메가와트당 실행 가능한 동시 작업 수가 인프라 투자 대비 생산성을 결정하는 핵심 지표가 된다.

72개 GPU 연결과 CUDA 커널이 만든 릴레이 구조 최적화

블랙웰의 이러한 전력 효율은 하드웨어와 소프트웨어의 긴밀한 최적화에서 비롯된다. NVIDIA GB300 NVL72는 72개의 GPU를 단일 랙 규모의 시스템으로 연결했다. 랙 규모 시스템은 여러 대의 서버를 하나의 거대한 컴퓨터처럼 묶어 관리하는 인프라 구조로, 이를 통해 대규모 MoE 모델의 실행을 효율적으로 분산한다. 단일 GPU의 한계를 넘어 72개의 연산 장치가 하나의 유닛처럼 움직이며 모델의 파라미터를 나누어 처리한다.

연산 효율은 CUDA 커널을 통해 한 단계 더 올라간다. CUDA 커널은 GPU의 연산을 직접 제어하는 소프트웨어 계층으로, 여기서 통신과 연산을 중첩(overlapping)시켜 처리한다. 중첩 처리는 데이터를 주고받는 통신 시간 동안 유휴 상태인 연산 자원을 활용해 계산을 동시에 수행하는 방식이다. 덕분에 MoE 모델의 서로 다른 전문가 네트워크 간에 데이터를 조정하는 비용이 전체 지연 시간으로 이어지지 않고 흡수된다.

추론 최적화 라이브러리인 NVIDIA TensorRT LLM은 동시 세션이 늘어나도 효율을 유지하게 돕는다. 이 라이브러리는 입력 처리 과정과 출력 생성 과정을 분리하여 각각 독립적으로 최적화한다. 입력 단계의 연산 특성과 출력 단계의 토큰 생성 특성이 다르다는 점을 이용해 자원을 배분함으로써, 에이전트가 도구를 호출하고 결과를 분석해 다음 단계를 결정하는 반복 주기 속에서 발생하는 병목 현상을 줄인다.

단일 호출 측정에서 체인 호출 측정으로, 벤치마크의 전환

이러한 성능 향상을 객관적으로 검증하기 위해 기존의 측정 방식과는 다른 새로운 기준이 도입되었다. AgentPerf는 단일 호출이 아닌 체인 형태의 LLM 호출 방식을 측정한다. 에이전트는 목표를 달성하기 위해 수십에서 수백 번의 호출을 연결하며, 각 단계에서 다음 단계로 전달되는 컨텍스트(대화 맥락)가 계속해서 누적된다. 여기에 코드 컴파일, 실행, 데이터베이스 검색, 웹 브라우징 같은 도구 호출 지연 시간이 매 단계마다 더해지면 시스템 부하는 단순 합산이 아니라 곱절로 증가한다. AgentPerf는 이처럼 누적되는 맥락과 도구 호출이 가속 컴퓨팅 시스템에 주는 실질적인 부하를 정밀하게 분석한다.

측정의 정확도를 높이기 위해 12개 이상의 프로그래밍 언어로 작성된 실제 공개 코드 저장소의 에이전트 궤적을 반영했다. 에이전트 궤적은 AI가 작업을 수행하기 위해 파일을 읽고 코드를 수정하며 명령어를 실행하고 그 결과에 따라 다시 반복하는 전체 경로를 의미한다. 실제 개발 환경에서 발생하는 긴 시퀀스 길이와 도구 호출 패턴, 지연 시간을 그대로 적용해 벤치마크의 실효성을 확보했다.

성능 측정 과정에서 도구 호출은 실제 실행 대신 대표적인 CPU 처리 시간을 적용해 시뮬레이션했다. 이는 외부 도구의 실행 속도나 네트워크 환경에 따라 결과가 왜곡되는 것을 막고 가속 컴퓨팅 성능만을 순수하게 측정하기 위한 장치다. AgentPerf는 플랫폼이 정의된 응답성과 출력 토큰 속도 기준을 충족하면서 동시에 얼마나 많은 에이전트 작업을 처리할 수 있는지 산출한다.

Cursor와 Pam.ai가 보여준 실무 적용 사례와 인프라 가치

Together AI는 AI 코딩 에이전트 플랫폼인 Cursor에 NVIDIA Blackwell 기반의 실시간 추론 서비스를 제공한다. Cursor의 에이전트는 개발자가 코드를 작성하는 동시에 실시간으로 버그를 찾는 디버깅, 새로운 기능 생성, 코드 구조를 개선하는 리팩토링 작업을 수행한다. 단순한 텍스트 응답을 넘어 실제 개발 워크플로우의 단계별 작업에 직접 개입하는 에이전트 서비스가 하드웨어 가속을 통해 실현되었다.

DeepInfra는 자동차 딜러십 전용 AI 인력 플랫폼인 Pam.ai에 Blackwell 기반 에이전트를 배포했다. Pam.ai의 에이전트는 고객의 서비스 예약 관리, 전화 응대, 아웃바운드 영업 캠페인 실행과 같은 실제 비즈니스 운영 업무를 전담한다. 자동차 딜러십이라는 특정 산업 환경에서 발생하는 반복적인 고객 접점 업무를 AI 에이전트가 대체하여 인력 운영의 효율을 높인 사례다. 특히 전화 응대나 예약 관리처럼 지연 시간이 짧아야 하는 서비스일수록 인프라의 처리량이 품질을 결정한다.

한국 AI 실무자를 위한 인프라 선택지와 Vera Rubin의 등장

AI 모델을 도입할 때 GPU 개수라는 지표가 더 이상 절대적인 기준이 되지 않는 시점이 왔다. NVIDIA Vera Rubin(엔비디아의 차세대 GPU 아키텍처) 아키텍처가 현재 풀 프로덕션 단계에 진입하며 차세대 인프라 용량을 제공하기 시작했다. 이 아키텍처는 에이전트가 수행하는 긴 시퀀스 길이와 복잡한 도구 호출 패턴을 효율적으로 처리하도록 설계되었다. 에이전트 서비스의 상용화 단계에서는 모델의 단순 추론 성능보다 전력 대비 처리량이라는 인프라 효율성이 실질적인 핵심 경쟁력이 된다.

한국의 AI 실무자가 대규모 에이전트 서비스를 구축할 때 고려해야 할 우선순위는 GPU의 단순 수량에서 랙 단위의 연결 구조와 전력 효율 수치로 이동해야 한다. 개별 GPU의 성능보다 72개의 GPU를 단일 랙 규모 시스템으로 연결해 모델 실행을 효율적으로 분산하는 구조가 에이전트의 응답 속도와 동시 처리량에 더 큰 영향을 미친다. 단순히 가속기 개수를 늘리는 방식으로는 에이전트 워크로드의 기하급수적인 연산 요구량을 감당하기 어렵기 때문이다.

챗봇에게 여러 번 수정 요청을 보내며 원하는 결과를 얻어내던 번거로운 과정은 이제 에이전트의 자율적인 반복 수행으로 대체된다. NVIDIA GB300 NVL72는 72개 GPU를 단일 랙으로 연결하고 CUDA 커널로 통신과 연산을 중첩시켜, HGX H200 대비 메가와트당 최대 20배 더 많은 에이전트를 구동한다.

대규모 에이전트 서비스 배포 시 핵심은 단순한 가속기 수량이 아니라 전력 비용 대비 동시 처리 가능한 작업 수다. 이제 인프라 투자 효율을 결정하는 실질적 기준은 메가와트당 구동 가능한 에이전트 수라는 수치로 수렴한다.