백엔드 개발자 D씨는 최근 깃허브 트렌드에서 대규모 모델의 학습 효율을 높이는 인프라 구성 방식에 주목했다. 수천 개의 GPU(그래픽 처리 장치, AI 연산을 가속하는 칩)를 연결해 하나의 거대한 뇌처럼 작동하게 만드는 과정에서 발생하는 통신 병목 현상이 핵심 쟁점이었다. 데이터가 오가는 길이 막히면 아무리 좋은 칩을 써도 성능이 나오지 않는 상황이 반복된다. 이런 곤란을 겪는 개발자가 늘고 있다.
AWS(아마존 웹 서비스)는 파운데이션 모델(기초가 되는 거대 AI 모델)의 사전 학습(방대한 데이터로 기본 지식을 배우는 단계), 사후 학습(특정 목적에 맞게 미세 조정하는 단계), 그리고 추론(학습된 모델이 답을 내놓는 과정)을 지원하기 위해 P5와 P6 인스턴스(가상 서버) 제품군을 운영한다. P5 인스턴스 중 p5.48xlarge 모델은 NVIDIA(엔비디아, AI 칩 설계 기업) H100 GPU 8개를 탑재했으며, P6 인스턴스는 최신 Blackwell B200 및 B300 아키텍처를 적용한 p6-b200.48xlarge와 p6-b300.48xlarge를 포함한다.
인프라의 핵심은 연산 능력뿐 아니라 데이터 전송 속도에 있다. EFA(Elastic Fabric Adapter, 서버 간 통신 속도를 높여주는 네트워크 인터페이스)는 SRD(Scalable Reliable Datagram, 데이터 패킷을 효율적으로 분산 전송하는 프로토콜) 프로토콜을 사용해 OS-bypass(운영체제를 거치지 않고 직접 통신하는 방식) RDMA(Remote Direct Memory Access, 원격 서버의 메모리에 직접 접근하는 기술) 기능을 제공한다. 이를 통해 Libfabric API(네트워크 통신을 위한 표준 인터페이스)를 사용하여 커널을 거치지 않고 직접 통신함으로써 지연 시간을 줄인다.
오픈소스 소프트웨어 생태계는 이 하드웨어 층 위에서 유기적으로 작동한다. 클러스터 층에서는 Slurm(작업 스케줄링 도구)과 Kubernetes(컨테이너 관리 플랫폼)가 자원 관리를 맡고, 모델 개발과 분산 학습은 PyTorch(AI 모델 개발 프레임워크)와 JAX(고성능 수치 계산 라이브러리)로 구현된다. 여기에 Prometheus(메트릭 수집 도구)로 지표를 모으고 Grafana(데이터 시각화 도구)로 상태를 모니터링하는 관찰 층이 더해져 전체 시스템의 건강 상태를 진단한다.
P5에서 P6로 이어지는 연산 성능의 확장
이번 업데이트에서 주목할 지점은 텐서 코어의 처리량과 HBM(고대역폭 메모리, 데이터를 빠르게 주고받는 고성능 메모리)의 용량 및 대역폭이다. 성능 측정 기준인 FLOPS(초당 부동 소수점 연산 횟수, 컴퓨터의 계산 속도 단위)를 보면, 최신 Blackwell 아키텍처가 적용된 P6 인스턴스가 이전 세대보다 압도적인 연산 밀도를 보여준다. 특히 BF16이나 FP8 같은 정밀도 설정에 따라 처리량이 달라지는데, 이는 모델의 크기가 커질수록 메모리 이동 속도가 전체 성능을 결정하는 핵심 변수가 되기 때문이다.
서버 내부와 외부를 잇는 통신 체계의 변화
예전에는 서버 한 대 내부의 GPU끼리만 빠르게 통신하면 충분했다. 하지만 이제는 수천 대의 서버를 묶어 하나의 거대한 연산 장치로 만드는 확장성이 생존 조건이 되었다. 서버 내부에서는 NVLink(GPU 간 초고속 연결 통로)와 NVSwitch(여러 GPU의 데이터를 효율적으로 배분하는 스위치)가 All-reduce(모든 GPU의 계산 결과를 합치는 작업) 같은 집단 통신을 처리한다. 비유하자면 NVLink가 방 안에서 옆 사람과 빠르게 속삭이는 것이라면, EFA는 다른 방에 있는 수천 명과 초고속 전용선을 통해 대화하는 것과 같다.
개발자가 바로 체감하는 변화는 학습 단계의 소요 시간인 스텝 타임(Step time)의 단축이다. 연산 능력 자체보다 데이터가 이동하는 시간이 전체 성능을 결정하는 병목 지점이 되면서, 네트워크 최적화가 곧 모델의 학습 속도로 직결되는 결과가 나타났다. Amazon EC2 UltraClusters(수천 대의 인스턴스를 하나로 묶은 거대 클러스터) 환경에서 EFA를 통해 OS 커널을 우회함으로써, 대규모 분산 학습 시 발생하는 통신 지연을 최소화하고 하드웨어 자원 활용도를 극대화할 수 있게 되었다.
AI 모델의 경쟁력은 알고리즘의 정교함보다 이를 뒷받침하는 하드웨어의 물리적 연결 밀도에서 결정된다.




