Decoupled DiLoCo, 지리적 제약 없이 AI 모델 학습 속도 20배 높인다

대규모 AI 모델을 학습시키기 위해 수천 개의 그래픽 처리 장치를 한곳에 모아두고 거대한 데이터 센터를 운영하는 모습은 이제 익숙한 풍경이다. 하지만 모든 장치를 물리적으로 한 건물에 밀어 넣는 방식은 전력 공급이나 공간 확보 측면에서 한계에 부딪히기 마련이다. 최근 개발자 커뮤니티에서는 물리적으로 멀리 떨어진 데이터 센터들을 마치 하나의 거대한 컴퓨터처럼 묶어 AI를 학습시키는 새로운 시도가 주목받고 있다.

분산 학습의 새로운 기준, Decoupled DiLoCo

Google은 최근 Decoupled DiLoCo(지리적으로 떨어진 서버들을 연결해 AI를 학습시키는 분산 학습 기술)를 발표하며 기존의 학습 방식이 가진 물리적 제약을 돌파할 수 있는 수치를 제시했다. 연구팀은 120억 개의 매개변수를 가진 모델을 미국 내 4개 지역에 분산된 서버를 활용해 성공적으로 학습시켰다. 이때 사용된 네트워크 대역폭은 2에서 5 Gbps 수준으로, 이는 특수한 전용 회선을 새로 깔지 않아도 기존의 데이터 센터 간 인터넷 연결만으로 충분히 구현 가능한 수치다. 특히 이 시스템은 기존의 동기화 방식보다 20배 이상 빠른 학습 속도를 기록했다. 이는 학습 과정에서 한쪽 서버가 다른 서버의 계산이 끝날 때까지 멈춰 서서 기다려야 하는 병목 현상을 제거했기 때문에 가능한 결과다.

하드웨어 세대 통합과 자원 활용의 효율화

예전에는 AI 모델을 학습시킬 때 동일한 성능을 가진 최신 하드웨어들만 한데 묶어 사용하는 것이 불문율이었다. 성능이 다른 장치를 섞으면 가장 느린 장치에 맞춰 전체 속도가 떨어지는 동기화 문제가 발생했기 때문이다. 이제는 Decoupled DiLoCo를 통해 TPU v6e(Google이 설계한 AI 학습용 고성능 칩셋)와 TPU v5p(이전 세대의 고성능 AI 학습 칩셋)처럼 서로 다른 세대의 하드웨어를 하나의 학습 작업에 섞어서 사용할 수 있게 되었다. 비유하자면, 속도가 다른 여러 대의 자동차를 하나의 팀으로 묶어 목적지까지 효율적으로 이동시키는 전략과 같다. 덕분에 구형 하드웨어를 폐기하지 않고도 전체 학습 자원의 총량을 늘릴 수 있으며, 새로운 하드웨어가 모든 지역에 동시에 보급되지 않아 발생하는 물류와 용량 부족 문제도 유연하게 해결할 수 있다.

분산 자원의 재발견과 미래 인프라

결과적으로 이 기술은 전 세계 곳곳에 흩어져 있는 유휴 자원(사용되지 않고 방치된 컴퓨팅 자원)을 찾아내어 AI 학습이라는 가치 있는 작업에 투입할 수 있는 길을 열었다. 하드웨어의 물리적 위치나 세대에 구애받지 않고 거대한 AI 모델을 학습시킬 수 있게 됨에 따라, 앞으로의 AI 인프라는 특정 지역의 대규모 센터에 의존하는 형태에서 벗어나 더욱 유연하고 회복 탄력성이 높은 구조로 진화할 전망이다.

Decoupled DiLoCo, 지리적 제약 없이 AI 모델 학습 속도 20배 높인다

분산 학습의 새로운 기준, Decoupled DiLoCo

하드웨어 세대 통합과 자원 활용의 효율화

분산 자원의 재발견과 미래 인프라

관련 기사