매일 아침 수많은 개발자가 거대 언어 모델을 학습시키기 위해 수천 대의 GPU를 연결하지만, 네트워크 병목 현상과 장비 고장은 학습 효율을 갉아먹는 고질적인 문제였다. 특히 수만 개의 GPU가 하나처럼 움직여야 하는 초거대 모델 학습 환경에서는 단 하나의 링크 장애만으로도 전체 작업이 멈추거나 체크포인트부터 다시 시작해야 하는 막대한 손실이 발생한다. 최근 개발자 커뮤니티에서는 이러한 네트워크 불안정성을 해결하기 위한 새로운 접근 방식이 화두로 떠올랐다.
OpenAI와 파트너사가 개발한 MRC 프로토콜
OpenAI는 AMD, Broadcom, Intel, Microsoft, NVIDIA와 협력하여 MRC(Multipath Reliable Connection, 다중 경로를 통해 데이터 전송의 신뢰성을 높이는 네트워크 프로토콜)를 개발하고 이를 Open Compute Project(데이터 센터 하드웨어 설계를 공유하는 오픈 소스 커뮤니티)에 공개했다. MRC는 최신 800Gb/s 네트워크 인터페이스에 내장되어 단일 데이터 전송을 수백 개의 경로로 분산하고, 마이크로초 단위로 장애를 우회하며, 네트워크 제어 평면을 단순화한다. 이 기술은 RDMA over Converged Ethernet(이더넷 환경에서 GPU와 CPU 간 메모리 접근을 가속하는 표준 기술)을 확장한 형태이며, Ultra Ethernet Consortium(고성능 AI 네트워크 표준을 만드는 연합체)의 기술과 SRv6(IPv6 기반의 소스 라우팅 기술)를 결합했다. 현재 이 기술은 OpenAI의 NVIDIA GB200 슈퍼컴퓨터와 Oracle Cloud Infrastructure(오라클의 기업용 클라우드 서비스)의 Abilene 데이터 센터, Microsoft의 Fairwater 슈퍼컴퓨터 등에 이미 배포되어 운영 중이다.
기존 네트워크 설계와의 차이점
예전에는 네트워크 인터페이스를 하나의 800Gb/s 링크로 처리했으나, 이제는 이를 여러 개의 작은 링크로 분할하는 방식을 취한다. 예를 들어, 하나의 인터페이스를 8개의 서로 다른 스위치에 연결하여 100Gb/s 속도의 병렬 네트워크 평면 8개를 구성하는 식이다. 이러한 설계 변화는 클러스터의 물리적 구조를 완전히 바꾼다. 기존 방식으로는 64개의 포트만 연결할 수 있던 스위치가 이제 512개의 포트를 연결할 수 있게 되며, 결과적으로 단 2단계의 스위치 계층만으로 약 13만 1,000개의 GPU를 완전히 연결하는 네트워크 구성이 가능해졌다. 이는 기존 800Gb/s 단일 링크 방식이 가졌던 복잡한 라우팅 구조와 비교했을 때, 네트워크 장애에 대응하는 회복 탄력성을 비약적으로 높인 결과다.
개발자가 바로 체감하는 변화는 네트워크 정체와 장애로 인한 학습 지연의 최소화다. MRC는 정적 소스 라우팅을 통해 장애 구간을 즉각적으로 우회함으로써, 전체 학습 작업이 멈추지 않고 지속되도록 보장한다. 이는 수백만 번의 데이터 전송이 일어나는 대규모 모델 학습 과정에서 GPU가 유휴 상태로 대기하는 시간을 획기적으로 줄여준다. 네트워크 설계의 복잡성을 낮추고 하드웨어 자원을 효율적으로 사용하는 것이 향후 AI 인프라 경쟁의 핵심이 될 것이다.




