MLPerf 6.0 전 항목 휩쓴 엔비디아 블랙웰의 학습 성능

MLPerf Training 6.0 전 항목 1위 기록한 블랙웰

초거대 AI 모델 하나를 학습시키려면 수천 대의 GPU를 몇 달간 가동해야 하며 이 과정에서 천문학적인 비용과 시간이 들어간다. 학습 시간이 길어질수록 모델의 성능을 개선하는 실험 주기 역시 느려지기에 인프라의 속도는 곧 제품의 경쟁력이 된다. 학습 속도를 높이면 모델 빌더는 프런티어 모델, 즉 최첨단 성능의 AI 모델을 더 빠르게 출시하고 학습 비용을 줄여 수익 창출 시점을 앞당길 수 있다. 엔비디아 블랙웰 플랫폼은 업계 표준 벤치마크인 MLPerf Training 6.0의 7개 전 항목에서 최단 학습 시간을 기록하며 이러한 성능 이점을 증명했다.

MLPerf Training 6.0은 AI 학습 성능을 평가하는 가장 공신력 있는 지표 중 하나로, 업계가 공동으로 검토하는 엄격한 피어 리뷰 벤치마크다. 엔비디아는 이번 평가에 GB200 NVL72와 GB300 NVL72 랙 스케일 시스템을 제출했다. 랙 스케일은 서버 랙 단위로 통합된 시스템을 의미하며 개별 서버가 아닌 랙 전체를 하나의 거대한 컴퓨팅 단위로 운용하는 방식이다. 엔비디아는 이번 벤치마크의 모든 항목에 결과물을 제출한 유일한 플랫폼으로 기록됐다. 이는 하드웨어와 소프트웨어를 동시에 최적화하는 익스트림 코드사인(Extreme Codesign, 극단적 통합 설계)을 통해 성능과 규모, 신뢰성을 단일 플랫폼에서 구현했음을 보여준다.

이번 벤치마크에는 최근 AI 모델의 핵심 설계로 부상한 MoE(Mixture of Experts, 전문가 혼합 구조) 사전 학습 워크로드가 새롭게 추가됐다. MoE는 모델의 모든 파라미터를 매번 사용하는 대신 입력값에 따라 적절한 전문가 네트워크만 선택적으로 활성화해 연산 효율을 높이는 방식이다. 구체적으로 6,710억 개의 파라미터를 가진 DeepSeek-V3 671B와 GPT-OSS-20B 모델이 신규 항목으로 포함되어 최신 모델 구조에서의 학습 성능을 측정했다. 특히 DeepSeek-V3 671B와 같은 거대 MoE 모델은 학습 시 데이터 전송량이 방대해 인프라의 대역폭 성능이 결과에 결정적인 영향을 미친다. 블랙웰 플랫폼은 이 두 가지 MoE 모델을 포함해 총 7개의 모든 테스트 항목에서 가장 빠른 학습 시간을 달성했다.

벤치마크 결과는 단순한 속도 향상을 넘어 대규모 모델 학습의 안정성과 확장성을 함께 보여준다. 수만 개의 GPU가 투입되는 실제 생산 환경에서는 학습 과정이 수주에서 수개월간 지속되며 이 기간 동안의 처리량과 복구 능력이 중요하다. 엔비디아는 GB200 NVL72와 GB300 NVL72라는 서로 다른 사양의 랙 시스템을 모두 제출해 다양한 규모의 인프라 환경에서 최적의 성능을 낼 수 있음을 확인했다. 이는 모델 규모가 커질수록 가중되는 인프라 부담을 블랙웰 플랫폼이 효과적으로 해결하고 있음을 수치로 입증한 결과이며, 대규모 학습의 처리량과 재현성을 동시에 확보했음을 의미한다.

72개 GPU를 하나로 묶는 NVLink와 NVFP4 기술

고성능 AI 인프라를 구축할 때 가장 큰 비용 낭비는 개별 GPU의 연산 능력이 아니라 데이터가 오가는 길목에서 발생하는 병목 현상이다. 엔비디아는 5세대 NVIDIA NVLink Switch를 통해 72개의 GPU를 하나의 통합 컴퓨팅 및 메모리 풀로 연결했다. NVLink Switch는 GPU 간의 데이터 전송 경로를 최적화하는 고속 인터커넥트 기술이다. 이를 통해 72개의 GPU가 물리적으로 분리되어 있음에도 불구하고 마치 하나의 거대한 GPU처럼 작동하는 환경을 구현했다. 단순한 연결을 넘어 모든 GPU가 서로의 메모리에 직접 접근할 수 있는 통합 풀을 형성함으로써 대규모 모델 학습 시 발생하는 데이터 전송 지연을 획기적으로 줄였다. 이는 데이터 이동에 소모되는 시간을 실제 연산 시간으로 전환해 전체 학습 효율을 높이는 결과로 이어진다.

데이터를 처리하는 정밀도를 낮추면 연산 속도는 올라가지만 모델의 정확도가 떨어지는 트레이드오프가 발생한다. 엔비디아는 4비트 부동소수점 방식인 NVFP4(NVIDIA Floating Point 4, 4비트 부동소수점) 저정밀도 학습 방식을 도입해 이 문제를 해결했다. NVFP4는 숫자를 표현하는 비트 수를 4비트로 줄여 연산 밀도를 높이면서도 학습에 필요한 최소한의 정확도를 유지하는 기술이다. 실제 엔비디아는 이 방식을 적용해 5,500억 개 파라미터 규모의 NVIDIA Nemotron 3 Ultra 모델 사전 학습을 수행했다. 파라미터는 모델이 학습하는 가중치 숫자를 의미하며, 이 수치가 클수록 모델의 지능이 높아지지만 연산량은 기하급수적으로 늘어난다. NVFP4를 사용하면 메모리 사용량을 줄이면서 동일한 하드웨어 자원에서 더 많은 연산을 수행할 수 있어 학습 속도를 가속한다.

단일 랙 단위를 넘어 수천 대의 GPU를 연결하는 분산 학습 환경에서는 네트워크 플랫폼의 안정성이 학습 전체의 성패를 결정한다. 엔비디아는 분산 학습 지원을 위해 NVIDIA Quantum InfiniBand와 NVIDIA Spectrum-X Ethernet이라는 두 가지 스케일아웃 네트워크 플랫폼을 제공한다. 스케일아웃은 장비를 추가해 시스템 전체 성능을 확장하는 방식이다. Quantum InfiniBand는 초저지연 통신에 특화되어 데이터 전송 시 발생하는 지연 시간을 최소화하는 전용 네트워크다. 반면 Spectrum-X Ethernet은 범용적인 이더넷 표준을 기반으로 하되 AI 워크로드의 특성에 맞게 최적화하여 확장성과 호환성을 높인 네트워크다. 데이터 센터 운영자는 인프라의 기존 설계와 예산에 맞춰 이 두 플랫폼을 선택해 최적화된 대규모 클러스터를 구축할 수 있다. 하드웨어 연결성과 데이터 정밀도 최적화는 결국 초거대 모델 학습의 물리적 한계를 극복하는 핵심 장치가 된다.

GB300 NVL72, GB200 대비 최대 1.6배 성능 향상

컴퓨터 사양이 낮아 작업 속도가 느려지면 단순한 기다림을 넘어 전체 일정이 밀리는 답답함을 겪는다. 인공지능 학습에서도 하드웨어의 한계는 곧 모델 출시일의 지연으로 이어진다. 엔비디아의 GB300 NVL72는 동일 규모의 GB200 NVL72와 비교해 최대 1.6배 빠른 학습 속도를 기록했다. 블랙웰 울트라(Blackwell Ultra) 하드웨어의 물리적 스펙 강화가 실제 연산 시간 단축이라는 수치로 증명된 결과다. 동일한 랙 규모에서 더 짧은 시간 안에 학습을 마칠 수 있다는 점은 인프라 효율성에서 큰 차이를 만든다.

성능 향상의 핵심은 NVFP4(NVIDIA Floating Point 4, 4비트 부동소수점) 적용을 통한 연산 밀도 증가다. 연산 밀도는 동일한 하드웨어 자원에서 단위 시간당 처리하는 계산 양을 뜻한다. 저정밀도 연산 방식을 도입해 한 번에 더 많은 데이터를 처리함으로써 전체적인 학습 효율을 높였다. 이는 정밀도를 낮추면서도 학습에 필요한 정확도를 유지하는 기술적 최적화를 통해 구현했다. 정밀도가 낮아지면 개별 데이터가 차지하는 메모리 공간이 줄어들어 더 많은 연산을 동시에 수행할 수 있다.

메모리 용량을 확장하고 전력 한도(Power Ceiling, GPU가 소비할 수 있는 최대 전력치)를 상향 조정한 점도 성능 유지에 기여했다. 전력 한도가 낮으면 GPU가 발열을 제어하기 위해 스스로 연산 속도를 낮추는 현상이 발생한다. GB300 NVL72는 전력 상한선을 높여 GPU가 피크 성능을 중단 없이 유지하도록 설계했다. 확장된 메모리는 한 번에 처리하는 데이터 묶음의 크기를 키워 데이터 전송 시 발생하는 병목 현상을 줄인다. 전력 공급 능력이 뒷받침되어 고부하 연산 상태에서도 성능 저하 없이 안정적인 출력을 낸다.

GB200 NVL72가 이미 높은 성능을 제공하지만 GB300 NVL72는 하드웨어 레벨의 최적화를 통해 성능 격차를 벌렸다. 동일한 랙 규모의 인프라를 구축했을 때 학습 시간을 최대 1.6배 단축할 수 있다는 수치가 이를 뒷받침한다. 이는 대규모 모델을 학습시키는 환경에서 인프라 운영 비용과 시간 비용을 직접적으로 줄이는 판단 기준이 된다. 하드웨어의 전력 효율과 연산 밀도가 높아질수록 동일 시간 내에 처리하는 토큰의 양이 늘어나며 이는 곧 모델의 반복 학습 주기 단축으로 이어진다. 하드웨어 스펙의 상향이 실제 학습 속도라는 결과물로 직결된 사례다.

8,192개 GPU 규모의 MoE 학습과 실무 적용 사례

AI 모델 개발 조직은 소프트웨어 최적화로 학습 시간을 줄이려 노력하지만, 결국 물리적인 연산 자원의 규모가 전체 속도를 결정한다. 엔비디아는 DeepSeek-V3 671B 모델 학습에 GB200 NVL72 시스템을 통해 8,192개의 GPU를 투입했다. 이는 이번 MLPerf Training 6.0에서 제출된 블랙웰 기반 사례 중 가장 큰 규모의 구성이다. Llama 3.1 405B 모델 학습에는 5,120개의 GB200 NVL72 GPU가 투입되어 성능을 검증했다. MoE(Mixture of Experts, 전체 파라미터 중 일부 전문가 네트워크만 활성화해 연산 효율을 높이는 구조) 모델의 파라미터 수가 수천억 개 단위로 커질수록, 수천 대의 GPU를 하나의 시스템처럼 묶어 처리하는 인프라의 규모가 학습 완료 시점을 결정한다. 대규모 GPU 클러스터의 안정적인 가동은 학습 중단으로 인한 비용 손실을 막는 핵심 전제 조건이 된다.

실제 서비스 적용 단계에서도 하드웨어 세대의 교체는 즉각적인 수치 변화로 이어진다. Cohere는 GB200 NVL72 시스템을 도입해 North 에이전틱 AI 플랫폼의 학습 속도를 3배 높였다. 에이전틱 AI(Agentic AI, 사용자의 목표를 이해하고 스스로 계획을 세워 도구를 사용해 실행하는 AI)는 복잡한 추론 과정이 필요해 학습 데이터 처리량이 많다. Google Cloud 환경에서 연구를 진행하는 Thinking Machines Lab은 GB300 NVL72를 사용해 이전 세대 GPU 대비 학습 및 서빙 속도를 2배 향상시켰다. 서빙 속도의 향상은 모델이 사용자 요청에 응답하는 지연 시간을 줄여 서비스 품질을 높인다. 이는 프론티어 모델 연구와 강화 학습 워크플로우의 반복 주기를 단축해 연구 효율을 직접적으로 끌어올린 사례다.

클라우드 인프라의 효율은 최종 서비스의 배포 주기와 사용자 경험에 직접적인 영향을 준다. Higgsfield는 Nebius가 제공하는 블랙웰 인프라를 활용해 모델 학습 시간을 30% 단축했다. 이 플랫폼은 현재 2,200만 명의 사용자에게 서비스를 제공하며 하루 600만 건 이상의 AI 콘텐츠를 생성하는 규모로 성장했다. 학습 시간의 30% 단축은 모델의 버전 업데이트 주기를 앞당겨 시장의 요구사항을 더 빠르게 반영할 수 있는 운영 체계를 만든다. 인프라 최적화를 통한 시간 단축은 단순한 기술적 성과를 넘어 서비스 출시 시점을 앞당기는 경영적 이득으로 이어진다. 초거대 모델 학습의 실질적인 시간 단축은 기업이 경쟁 모델보다 빠르게 서비스를 출시해 매출 발생 시점을 앞당기는 실무적인 동력이 된다.

인프라 선택 기준: MoE 모델과 저정밀도 학습의 실효성

복잡한 모델을 학습시킬 때마다 인프라 구성에 투입되는 시간과 비용을 절반으로 줄이는 것은 모든 AI 엔지니어의 당면 과제다. MLPerf Training 6.0 벤치마크 결과는 MoE(Mixture of Experts, 특정 입력에 대해 모델 내 일부 전문가 네트워크만 활성화하는 구조) 모델과 같은 차세대 아키텍처를 운용할 때, 단일 GPU의 연산력보다 시스템 전체를 관통하는 데이터 전송 효율이 학습 속도를 결정짓는 핵심 변수임을 증명한다.

MoE 모델은 학습 과정에서 토큰 라우팅(Tokens Routing, 데이터를 적절한 전문가 네트워크로 전달하는 과정)이 빈번하게 발생한다. 이 과정에서 발생하는 GPU 간 통신 지연을 최소화하기 위해 5세대 NVIDIA NVLink Switch가 적용된 랙 스케일(Rack-scale, 서버 랙 단위로 통합된 컴퓨팅 및 메모리 시스템) 구조가 필수적이다. 72개의 GPU를 하나의 거대한 GPU처럼 작동하게 만드는 통합 메모리 풀은 대규모 MoE 워크로드에서 발생하는 병목 현상을 해결한다. 실무자는 단일 노드의 성능뿐만 아니라, 랙 단위로 통합된 시스템이 제공하는 대역폭이 모델의 파라미터 규모와 비례하여 확장 가능한지를 우선적으로 고려해야 한다.

저정밀도 학습 방식인 NVFP4(NVIDIA Floating Point 4, 4비트 부동소수점 연산)의 도입은 연산 밀도(Compute Density)를 높여 학습 비용을 절감하는 실질적인 대안이다. NVFP4는 5,500억 개 파라미터 규모의 NVIDIA Nemotron 3 Ultra 모델 사전 학습에 적용되어 정확도를 유지하면서도 성능을 향상했다. 다만, 실무 환경에서는 저정밀도 도입 시 발생하는 연산 효율 이득과 모델 정확도 유지 사이의 트레이드오프를 사전에 검증해야 한다. 특히 GB300 NVL72 시스템은 GB200 NVL72 대비 동일 규모에서 최대 1.6배 빠른 학습 속도를 기록했는데, 이는 향상된 연산 밀도와 높아진 전력 한도(Power Ceiling, GPU가 피크 성능을 지속하기 위해 허용되는 최대 전력치)가 결합된 결과다.

결국 인프라 선택의 기준은 모델의 아키텍처와 학습 규모에 따라 달라져야 한다. DeepSeek-V3 671B와 같은 대규모 MoE 모델을 다루는 환경이라면 GB200 NVL72와 같은 랙 스케일 시스템의 확장성을 활용하는 것이 유리하며, 연산 자원을 극대화해야 하는 상황에서는 NVFP4 지원 여부가 비용 대비 효율을 결정짓는 핵심 지표가 된다. 한국의 AI 실무자는 단순히 GPU 개수를 늘리는 방식에서 벗어나, 랙 단위의 통합 메모리 풀과 네트워크 플랫폼인 NVIDIA Quantum InfiniBand 또는 NVIDIA Spectrum-X Ethernet을 조합하여 워크로드에 최적화된 클러스터를 설계하는 전략이 필요하다.

수천 대의 GPU와 막대한 비용이 투입되는 초거대 AI 학습에서 인프라 효율은 곧 경쟁력이다. MLPerf 6.0의 전 항목 1위 기록은 블랙웰 플랫폼이 단순한 연산 속도를 넘어 데이터 병목을 해결했음을 증명한다. MoE 모델을 설계한다면 NVLink 대역폭과 NVFP4 저정밀도 학습의 실효성을 따져 GB200 대비 최대 1.6배 성능을 내는 GB300 도입 여부를 결정해야 한다.

최종적으로 Quantum InfiniBand 또는 Spectrum-X Ethernet 중 워크로드에 적합한 네트워크 플랫폼을 선택해 클러스터를 설계하는 것이 실질적인 학습 시간 단축의 핵심이다. 인프라의 물리적 연결 밀도가 AI 모델의 시장 진입 시점을 결정한다.