FedAvg vs FedProx, NVIDIA FLARE로 증명한 비정형 데이터 대응력

NVIDIA FLARE(Federated Learning Application Runtime Environment, 연합학습 애플리케이션 런타임 환경)가 비정형(non-IID) CIFAR-10 데이터셋 환경에서 FedAvg와 FedProx 알고리즘의 성능을 비교하는 엔드투엔드 연합학습 워크플로우를 공개했다. 이번 실험의 핵심은 실제 환경에서 빈번하게 발생하는 레이블 불균형 문제를 시뮬레이션하기 위해 디리클레(Dirichlet) 분포를 사용해 클라이언트 데이터를 분할했다는 점이다. 서버 측의 오케스트레이션을 담당하는 Job API와 각 클라이언트의 로컬 학습 및 모델 교환을 처리하는 Client API를 결합해, 데이터가 서로 다른 환경에서도 글로벌 모델의 정확도가 어떻게 진화하는지를 정밀하게 추적했다.

특히 표준적인 FedAvg 방식과 데이터 이질성 문제를 해결하기 위해 설계된 FedProx의 성능 차이를 동일한 파티션 데이터셋 위에서 직접 비교함으로써, 연합학습의 실무적 구현 가능성을 제시했다. 개발자들은 이제 NVFlare의 API 구조를 통해 복잡한 서버-클라이언트 통신 설정을 최소화하고, 하이퍼파라미터 조정만으로 알고리즘 간의 효율성을 즉각적으로 검증할 수 있게 되었다. 이는 단순히 모델을 학습시키는 것을 넘어, 데이터가 파편화된 실제 산업 현장에서 어떤 알고리즘이 더 견고한 성능을 내는지 수치로 확인할 수 있는 환경이 마련되었음을 의미한다.

NVIDIA FLARE 기반 FedAvg 및 FedProx 실험 환경 구축

NVFlare(엔비디아 플레어, 연합학습 프레임워크)의 Job API와 Client API를 분리해 서버와 클라이언트의 역할을 정의하는 것부터 시작한다. 서버 측에서는 Job API를 통해 전체적인 연합학습 작업의 정의와 런칭을 제어하며, 각 사이트의 클라이언트는 Client API를 통해 로컬 학습과 모델 교환, 그리고 서버와의 통신을 처리한다. 개발자들 사이에서 NVFlare가 뜨거운 이유는 이처럼 서버 오케스트레이션과 로컬 실행 환경을 명확하게 구분해 실제 배포 환경과 유사한 확장성을 확보했기 때문이다. 단순한 모델 전송을 넘어 실제 분산 환경에서 발생할 수 있는 통신 오버헤드와 제어권을 API 수준에서 관리할 수 있다는 점이 개발자가 체감하는 가장 큰 변화다. 시뮬레이션된 여러 클라이언트 프로세스가 서버의 지시에 따라 유기적으로 움직이는 구조는 복잡한 연합학습 파이프라인을 단순화하며 실험의 재현성을 높인다.

실험의 성패를 가르는 지점은 CIFAR-10(10가지 클래스로 구성된 이미지 데이터셋)을 어떻게 나누느냐에 있다. 단순히 데이터를 무작위로 쪼개는 것이 아니라 디리클레(Dirichlet) 분포를 활용해 non-IID(비독립 동일 분포, 데이터가 각 클라이언트에 불균형하게 분포된 상태) 환경을 구축했다. 실제 산업 현장의 데이터는 특정 사이트에 특정 클래스가 쏠려 있는 경우가 많기에, 이러한 레이블 불균형을 시뮬레이션하는 것이 연합학습 성능 검증의 필수 관문으로 꼽힌다. 커뮤니티에서는 특히 디리클레 알파(alpha) 값을 어떻게 설정하느냐에 따라 데이터의 이질성 정도가 결정되므로, 이 수치가 모델의 수렴 속도와 정확도에 주는 영향에 대해 논쟁이 뜨겁다. 알파 값이 낮을수록 데이터 불균형이 심화되어 학습 난이도가 올라가는데, 이를 통해 알고리즘의 강건성을 극한까지 테스트할 수 있는 환경이 마련된다.

구체적인 실험 설정값은 클라이언트 수, 학습 라운드, 배치 사이즈, 학습률, 그리고 디리클레 알파 값으로 정밀하게 구성된다. 클라이언트 사이드에서는 별도의 파이썬 스크립트를 통해 CNN(합성곱 신경망) 모델을 정의하고, 서버로부터 글로벌 가중치를 전달받아 로컬 학습을 수행한 뒤 다시 업데이트된 모델을 전송하는 워크플로우를 반복한다. FedAvg(연합 평균)와 FedProx(연합 근사) 두 알고리즘을 동일한 파티션 데이터셋에 적용해 글로벌 모델의 정확도가 라운드별로 어떻게 변화하는지 추적하는 구조다. 특히 FedProx의 경우 로컬 학습 시 발생하는 모델 드리프트를 억제하기 위한 mu 값을 추가로 설정해 non-IID 환경에서의 대응력을 정밀하게 측정한다. 공유된 테스트 세트를 통해 글로벌 모델의 정확도를 측정하는 평가 함수까지 포함해, 각 라운드마다 모델이 얼마나 빠르게 수렴하는지 데이터로 증명하는 환경을 완성했다.

Job API와 Client API의 유기적 협업 구조

서버의 Job API(작업 API)가 전체 오케스트레이션을 주도하고 클라이언트의 Client API(클라이언트 API)가 로컬 학습을 수행하는 구조다. NVIDIA FLARE(Federated Learning Application Runtime Environment, 연합 학습 애플리케이션 런타임 환경)에서 이 두 API는 단순한 연결을 넘어 자동화된 루프로 동작하며 데이터의 이동 경로를 제어한다. 구체적인 워크플로우는 서버가 글로벌 가중치를 전송하는 것으로 시작해 클라이언트가 이를 수신하여 로컬 학습을 진행하고, 다시 업데이트된 모델 가중치를 서버로 반환하는 순서로 이어진다. 서버는 이렇게 수집된 여러 클라이언트의 모델을 집계하여 다시 글로벌 모델을 갱신하며 이 과정을 반복한다. 개발자 커뮤니티에서는 이 과정이 복잡한 통신 설정 없이 API 호출만으로 매끄럽게 이어지는 지점이 가장 뜨거운 반응을 얻고 있으며, 특히 서버의 제어권과 클라이언트의 자율성이 조화를 이루는 방식에 주목하고 있다.

실제 구현에서는 CNN(Convolutional Neural Network, 합성곱 신경망) 모델을 기반으로 CIFAR-10 이미지 분류 작업을 수행한다. 여기서 주목할 점은 단순히 데이터를 균등하게 나누는 것이 아니라 결정론적 디리클레 파티셔닝(Deterministic Dirichlet Partitioning) 함수를 사용해 클라이언트별 데이터 샤드를 생성한다는 사실이다. 이는 실제 현장에서 발생하는 데이터 불균형, 즉 Non-IID(Not Identically and Independently Distributed, 독립 동일 분포가 아닌) 상황을 정교하게 시뮬레이션하여 모델의 강건성을 테스트하기 위함이다. 개발자들 사이에서는 데이터 분포가 깨진 상황에서 모델이 얼마나 빠르게 수렴하느냐를 두고 논쟁이 벌어지는데, 이 구조는 데이터 샤딩 단계부터 의도적인 불균형을 생성해 실험의 현실성을 극대화했다. 모델의 가중치가 서버와 클라이언트를 오갈 때마다 이러한 데이터 특성이 어떻게 반영되는지가 기술적인 핵심이다.

글로벌 모델의 최종 성능 검증은 모든 클라이언트가 공유하는 CIFAR-10 테스트 세트를 활용한 정확도 평가 함수를 통해 이루어진다. 각 클라이언트가 로컬 학습을 마치고 업데이트된 모델을 반환하면, 서버는 집계된 글로벌 모델이 전체 테스트셋에서 어떤 정확도를 기록하는지 실시간으로 측정하며 학습의 진척도를 파악한다. 개발자들은 개별 클라이언트의 로컬 정확도보다 결국 서버에서 집계된 글로벌 모델의 수렴 속도와 최종 정확도에 더 민감하게 반응하는데, 이 평가 루프가 Job API와 Client API 사이에 유기적으로 배치되어 있다. 서버가 학습 작업을 정의하고 클라이언트가 이에 응답하며 다시 서버가 전체 성능을 평가하는 이 순환 구조는 연합 학습의 고질적인 문제인 통신 오버헤드와 모델 발산을 제어하는 핵심 장치로 작동하며 전체 워크플로우의 안정성을 보장한다.

FedAvg vs FedProx, 비정형 데이터 대응력의 차이

비정형 데이터(non-IID) 설정의 CIFAR-10 데이터셋에서 두 알고리즘의 성능 곡선은 명확하게 갈린다. 표준 연합학습 알고리즘인 FedAvg(Federated Averaging, 연합 평균)는 각 클라이언트에서 학습된 가중치를 서버로 보내 단순히 평균 내는 방식을 취한다. 하지만 실제 현장 데이터처럼 라벨 불균형이 심한 환경에서는 각 로컬 모델이 서로 다른 방향으로 최적화되는 클라이언트 드리프트 현상이 발생한다. 개발자 커뮤니티에서는 FedAvg가 데이터가 균일한 IID 환경에서는 압도적으로 빠르지만 데이터 이질성이 커질수록 글로벌 모델의 수렴 속도가 급격히 떨어지거나 성능이 불안정해진다는 점을 반복적으로 지적한다.

FedProx(Federated Proximal)는 바로 이러한 데이터 이질성 문제를 해결하기 위해 설계된 알고리즘이다. 핵심은 $\mu$(mu)라는 파라미터를 도입해 로컬 업데이트가 글로벌 모델의 상태에서 너무 멀어지지 않도록 제어하는 근사 항(Proximal Term)을 손실 함수에 추가한 것이다. 개발자들 사이에서는 이 $\mu$ 값이 로컬 학습의 자율성과 글로벌 모델의 일관성 사이에서 균형을 잡는 정밀한 조절 나사 역할을 한다고 평가한다. $\mu$ 값이 적절히 설정되면 데이터 분포가 극단적으로 다른 클라이언트가 섞여 있는 상황에서도 특정 로컬 모델이 전체 학습 방향을 왜곡하는 것을 막고 안정적인 학습 궤적을 유지할 수 있다.

두 알고리즘의 대응력 차이는 통신 라운드별 글로벌 테스트 정확도 곡선을 시각화했을 때 가장 극명하게 드러난다. 동일한 non-IID 설정에서 FedAvg는 라운드가 진행됨에 따라 정확도가 심하게 요동치거나 특정 구간에서 정체되는 모습을 보이지만 FedProx는 상대적으로 매끄럽고 안정적인 상승 곡선을 그린다. 이는 $\mu$ 값이 로컬 모델의 과적합을 억제하며 글로벌 모델로의 수렴을 강제했기 때문에 가능한 결과다. 실무자들은 단순한 최종 정확도 수치보다 통신 횟수 대비 성능 향상 폭이 얼마나 일정한지를 중요하게 보는데 이 지점에서 FedProx의 비정형 데이터 대응력이 증명된다.

연합학습의 실무적 성패는 각 사이트의 데이터가 얼마나 제각각인가를 어떻게 제어하느냐에 달려 있다. FedAvg가 단순함과 계산 효율성을 앞세운다면 FedProx는 $\mu$ 값을 통한 제어력을 통해 데이터 불확실성을 제거하는 전략을 취한다. 비정형 데이터 환경에서 모델의 안정성을 확보하기 위해 $\mu$ 값을 최적화하는 과정은 이제 고도화된 연합학습 파이프라인 구축의 필수적인 단계로 인식되고 있다.

연합학습 진입 장벽을 낮추는 NVFlare의 워크플로우

예전에는 연합학습 환경 하나 구축하려고 서버 설정부터 클라이언트 통신 프로토콜까지 개발자가 일일이 붙잡고 씨름해야 했다. 지금 NVFlare(NVIDIA Federated Learning Application Runtime, 엔비디아 연합학습 애플리케이션 런타임)가 뜨거운 이유는 이 지루한 인프라 설정을 Job API(작업 API)로 단순화했기 때문이다. 데이터 준비부터 모델 학습, 그리고 최종 성능 비교까지 이어지는 엔드투엔드 워크플로우가 하나의 흐름으로 완성된다. 개발자는 이제 네트워크 설정이나 통신 오버헤드 같은 하위 레벨의 고민 대신, 어떤 알고리즘이 현재 데이터셋에 최적인지 검증하는 본질적인 작업에만 집중할 수 있다. 특히 Client API(클라이언트 API)를 통해 로컬 학습과 모델 교환 과정을 표준화함으로써, 개별 사이트의 환경 차이로 인한 오류를 획기적으로 줄였다.

실무자들이 특히 주목하는 지점은 NVFlare 워크스페이스 내에서 글로벌 모델 체크포인트가 자동으로 저장되고 재사용 가능하다는 점이다. 연합학습은 수많은 통신 라운드를 거치며 모델이 업데이트되는데, 중간에 학습이 끊기거나 특정 시점의 모델 성능을 다시 확인해야 할 때 이 체크포인트 기능이 결정적인 역할을 한다. 서버 사이드에서 집계된 최종 모델을 따로 추출해 다른 실험에 투입하거나, 하이퍼파라미터 튜닝의 기점으로 삼는 과정이 매우 매끄럽다. 이는 실험의 반복 주기를 획기적으로 줄여주며, 연구자가 가설을 빠르게 검증하고 모델을 고도화하는 속도를 높이는 결과로 이어진다. 인프라 관리 비용이 줄어든 만큼 모델의 일반화 성능을 높이는 전략에 더 많은 시간을 할애할 수 있게 된 셈이다.

데이터가 불균형하게 분포된 비정형 조건에서 어떤 알고리즘을 선택할 것인가에 대한 논쟁은 개발자 커뮤니티에서 늘 뜨거운 주제다. NVFlare는 학습 곡선 시각화를 통해 FedAvg(Federated Averaging, 연합 평균)와 FedProx(Federated Proximal, 연합 근사) 같은 알고리즘의 성능 차이를 명확한 근거로 제시한다. 통신 라운드에 따른 글로벌 테스트 정확도 변화를 그래프로 그려보면, 데이터 이질성이 심한 환경에서 특정 알고리즘이 왜 더 안정적으로 수렴하는지 한눈에 들어온다. 추측이 아니라 시각화된 데이터로 알고리즘 선택의 근거를 마련할 수 있다는 점이 실무자들에게 실질적인 효용을 준다. 이는 단순한 벤치마크를 넘어 실제 서비스 환경의 데이터 특성에 맞는 최적의 경로를 찾는 나침반 역할을 한다.

인프라의 복잡성을 걷어내고 알고리즘의 효율성을 증명하는 도구로서의 가치가 갈수록 커지고 있다. 복잡한 설정 없이도 비정형 데이터셋에 대응하는 연합학습 실험을 즉시 실행할 수 있는 환경은 진입 장벽을 낮추는 핵심 동력이다. 특히 데이터 준비부터 비교 분석까지의 전 과정을 자동화된 파이프라인으로 구축할 수 있다는 점이 매력적이다. 전체 구현 과정과 상세 설정이 담긴 Full Codes를 통해 누구나 빠르게 자신의 환경에서 검증을 시작할 수 있다. 이제 개발자는 환경 구축이라는 늪에서 벗어나 모델의 성능 최적화라는 본질적인 경쟁력 확보에 집중하는 시대로 진입했다.

데이터 프라이버시 규제 환경과 한국형 연합학습의 실익

금융권이나 의료 현장에서 데이터 하나 옮기려면 법무팀 검토부터 시작해 수개월이 걸리는 게 현실이다. 데이터 외부 유출이 엄격히 금지된 한국 산업군에서 중앙 집중식 학습은 사실상 불가능에 가깝다. 그래서 최근 개발자 커뮤니티에서는 데이터를 옮기지 않고 모델만 주고받는 NVFlare(NVIDIA Federated Learning Application Runtime, 엔비디아 연합학습 애플리케이션 런타임) 같은 프레임워크의 실익을 두고 논의가 뜨겁다. 단순히 기술적 호기심을 넘어 규제라는 벽을 넘기 위한 유일한 기술적 경로로 인식되고 있기 때문이다. 특히 망 분리 환경이 기본인 한국 금융 보안 가이드라인 아래에서 연합학습은 선택이 아닌 필수라는 목소리가 높다.

실무자들이 가장 민감하게 반응하는 지점은 Non-IID(Non-Independent and Identically Distributed, 비정형 데이터 분포) 처리 능력이다. 한국의 의료 데이터는 병원마다 환자군이나 진료 패턴이 완전히 다르다. A 병원은 고령층 데이터가 많고 B 병원은 소아과 데이터가 집중된 식이다. 이런 데이터 파편화 상태에서 단순하게 가중치를 평균 내는 FedAvg(Federated Averaging, 연합 평균) 방식을 쓰면 모델이 갈팡질팡하며 정확도가 급락하는 현상이 발생한다. 커뮤니티에서는 이를 두고 데이터 편향성 문제를 해결하지 못하면 연합학습은 이론에 불과하다는 냉소적인 반응과 함께 FedProx(Federated Proximal, 연합 근사) 같은 대안 알고리즘의 필요성이 강하게 제기된다. 각 기관의 데이터 분포가 다를 때 발생하는 모델 드리프트 현상을 어떻게 잡느냐가 현재 가장 뜨거운 감자다.

결국 핵심은 각 사이트의 서로 다른 데이터 분포 속에서도 어떻게 글로벌 모델의 정확도를 확보하느냐에 있다. NVFlare의 Job API(작업 API)와 Client API(클라이언트 API)를 활용해 로컬 학습과 모델 교환 과정을 정교하게 제어하면 프라이버시를 보호하면서도 고성능 모델을 구축할 수 있다. 특히 FedProx처럼 로컬 업데이트가 글로벌 모델에서 너무 멀어지지 않도록 제어하는 근사 항을 추가함으로써 데이터 불균형 문제를 정면으로 돌파하려는 시도가 이어지고 있다. 이는 단순히 수식을 추가하는 문제가 아니라 한국 특유의 파편화된 데이터 환경에서 모델의 일반화 성능을 끌어올리는 전략적 선택이다. 이제 논쟁의 중심은 단순한 구현 가능성을 넘어 통신 라운드를 최소화하면서도 Non-IID 환경에서 얼마나 빠르게 수렴시키느냐라는 최적화 단계로 옮겨가고 있다.