수만 개의 GPU가 동시에 맞물려 돌아가는 AI 팩토리 내부를 상상해 보자. 데이터 하나가 막히면 전체 학습 공정이 멈춘다. 이 병목 현상을 해결하려는 시도가 네트워크 계층에서 벌어지고 있다.

Spectrum-X와 MRC의 기술적 제원

NVIDIA는 Spectrum-X(AI 전용 이더넷 플랫폼)에 MRC(Multipath Reliable Connection, 데이터를 여러 경로로 분산 전송하는 RDMA 전송 프로토콜)를 도입했다. RDMA(Remote Direct Memory Access, CPU를 거치지 않고 메모리에 직접 접근하는 기술) 기반의 이 프로토콜은 OpenAI, Microsoft, Oracle의 인프라에 이미 적용되었다. 하드웨어적으로는 ConnectX SuperNICs(고성능 네트워크 인터페이스 카드)와 Spectrum-X 이더넷 스위치가 이를 뒷받침한다. NVIDIA는 AMD, Broadcom, Intel, Microsoft, OpenAI와 협력해 이 기술을 개발했다. 현재 Open Compute Project(개방형 하드웨어 및 소프트웨어 표준 프로젝트)를 통해 오픈 사양으로 공개된 상태다.

단일 경로에서 격자형 망으로의 전환

예전의 네트워크 연결은 단일 차선 도로와 같았다. 경로 하나에 문제가 생기면 전체 트래픽이 정체되었고 GPU는 데이터를 기다리며 유휴 상태가 되었다. 이제는 격자형 도로망처럼 여러 경로를 동시에 사용한다. MRC는 하드웨어 수준에서 마이크로초 단위로 경로 장애를 감지하고 즉시 우회시킨다. 여기에 OpenAI가 도입한 Multiplanar(여러 개의 독립적인 네트워크 패브릭을 구성하는 방식) 설계가 더해졌다. 단일 평면 구조에서는 불가능했던 하드웨어 가속 로드 밸런싱이 가능해지며 수십만 개의 GPU 규모에서도 지연 시간을 낮게 유지한다.

개발자와 관리자가 체감하는 가장 큰 변화는 가시성과 복구 속도다. 트래픽 경로를 세밀하게 제어하고 문제 지점을 빠르게 찾아낼 수 있다. 데이터 손실 시 지능형 재전송 기능이 작동해 장시간 실행되는 학습 작업의 중단 위험을 최소화한다. 이는 결과적으로 GPU 활용률을 극대화해 천문학적인 학습 비용을 절감하는 효과로 이어진다. 고객은 Spectrum-X 이더넷 환경에서 Adaptive RDMA(네트워크 상황에 따라 경로를 최적화하는 전송 방식)와 MRC 중 워크로드에 맞는 전송 모델을 선택해 사용할 수 있다.

AI 인프라의 주도권이 단순한 칩 성능을 넘어 네트워크 표준을 누가 쥐느냐의 싸움으로 옮겨갔다.