매일 수백만 건의 데이터 전송이 일어나는 AI 슈퍼컴퓨터 내부에서, 단 하나의 패킷 지연은 전체 학습 과정을 멈추게 하는 치명적인 병목 현상을 유발한다. 개발자 커뮤니티에서는 그동안 GPU가 데이터를 기다리며 노는 유휴 시간(Idle time)을 줄이기 위해 네트워크 구조를 어떻게 최적화할 것인가를 두고 치열한 논쟁이 이어져 왔다. OpenAI가 최근 공개한 MRC(Multipath Reliable Connection, 다중 경로 신뢰성 연결)는 바로 이 지점에서 대규모 클러스터의 네트워크 불안정성을 해결하기 위해 등장한 새로운 통신 규약이다.

MRC의 기술적 사양과 OCP 표준화

OpenAI는 지난 2년간 AMD, Broadcom, Intel, Microsoft, NVIDIA와 협력하여 MRC를 개발했다. 이 프로토콜의 사양은 OCP(Open Compute Project, 데이터센터 하드웨어 설계를 공유하는 오픈 소스 커뮤니티)를 통해 공개되어 누구나 활용할 수 있게 되었다. MRC는 기존의 RoCEv2(RDMA over Converged Ethernet, 이더넷 환경에서 하드웨어 가속을 통해 메모리에 직접 접근하는 기술)를 확장한 형태다. 여기에 UEC(Ultra Ethernet Consortium, 차세대 이더넷 표준을 만드는 연합)의 기술과 SRv6(Segment Routing over IPv6, 패킷 헤더에 경로 정보를 직접 담아 전송하는 기술) 기반의 소스 라우팅을 결합하여 대규모 AI 네트워크 패브릭을 지원하도록 설계되었다. 특히 AMD가 기여한 NSCC(Network-based Congestion Control, 네트워크 기반 혼잡 제어 알고리즘)가 포함되어 기존 RDMA 프로그래밍 모델과의 호환성을 유지하면서도 다중 경로 기능을 구현했다.

기존 RoCEv2와의 차이점과 지능형 패킷 분산

예전에는 데이터 전송 시 단일 네트워크 경로만을 고집했기에, 특정 구간에 혼잡이 발생하면 패킷이 정체되는 현상을 피할 수 없었다. 이제는 MRC의 지능형 패킷 스프레이(Intelligent Packet-Spray) 부하 분산 기술을 통해 수백 개의 경로로 패킷을 동시에 분산 전송한다. 기존 방식이 A에서 B까지 하나의 길만 이용했다면, MRC는 네트워크 상황에 따라 실시간으로 경로를 변경한다. 또한, 기존 네트워크 패브릭이 장애 발생 시 복구에 수 초 이상 소요되던 것과 달리, MRC는 모든 라우팅 지능을 스위치가 아닌 NIC(Network Interface Card, 네트워크 카드) 수준으로 옮겨 마이크로초 단위로 장애를 감지하고 우회한다. 스위치는 복잡한 경로 계산을 수행하지 않고 미리 설정된 경로를 따르기만 하므로, 스위치 간의 적응형 메커니즘이 충돌하는 문제도 원천 차단했다.

클러스터 아키텍처의 변화와 실제 운용 현황

개발자가 바로 체감하는 가장 큰 변화는 클러스터 설계의 효율성이다. MRC를 적용하면 하나의 800Gb/s 네트워크 인터페이스를 여러 개의 작은 링크로 쪼개어 사용할 수 있다. 예를 들어 64포트 스위치를 512포트 규모로 확장 운용할 수 있게 되어, 13만 개 이상의 GPU를 단 2계층의 스위치만으로 연결 가능하다. 이는 기존 3~4계층 구조 대비 광학 부품은 3분의 2, 스위치 개수는 5분의 3 수준으로 줄일 수 있음을 의미한다. 현재 MRC는 NVIDIA ConnectX-8, AMD Pollara, AMD Vulcano, Broadcom Thor Ultra와 같은 고성능 NIC에서 작동하며, NVIDIA Spectrum-4/5 및 Broadcom Tomahawk 5 스위치 환경에서 실전 배치되었다. 이미 OpenAI의 대규모 NVIDIA GB200 슈퍼컴퓨터와 Microsoft의 Fairwater 슈퍼컴퓨터 등에서 실제 모델 학습에 활용되고 있다.

네트워크 최적화는 이제 단순한 인프라 개선을 넘어, 모델 학습의 비용과 성능을 결정짓는 핵심 알고리즘의 영역으로 완전히 편입되었다.