arXiv논문2026. 04. 24. 04:46

데이터 공유 없이 중앙 성능 보장하는 분산 학습 방법론

요약

본 논문은 클라이언트가 로컬 데이터셋을 공유하지 않고도 중앙 집중식(centralized) 수준의 성능을 달성할 수 있는 새로운 분산 학습 패러다임을 제시합니다. 핵심은 '상대 엔트로피 정규화 (ERM-RER)' 프레임워크를 채택하고, 클라이언트 간에 로컬에서 얻은 '깁스 측정값(Gibbs measures)'만을 순차적으로 공유하는 것입니다. 이 깁스 측정값을 참조 측정값(reference measure)으로 활용하여 사전 정보(prior information)를 인코딩함으로써, 마치 모든 데이터에 접근한 중앙 집중식 학습과 동일한

핵심 포인트

로컬 데이터셋 공유 없이도 중앙 성능 달성이 가능하며, 이는 새로운 분산 학습 패러다임을 열어줍니다.
클라이언트들은 '상대 엔트로피 정규화 (ERM-RER)' 프레임워크를 사용하고, 깁스 측정값(Gibbs measures)을 순차적으로 공유합니다.
공유된 깁스 측정값은 다음 클라이언트의 학습에 참조 측정값(reference measure)으로 활용되어 사전 정보를 효과적으로 인코딩합니다.
중앙 성능 달성을 위해서는 정규화 계수(regularization factors)가 로컬 샘플 크기에 맞춰 특정 방식으로 스케일링 되어야 합니다.

본 논문은 분산 학습 환경에서 데이터셋을 공유하지 않고도 중앙 집중식 수준의 성능 보장(Centralized Performance Guarantees)이 가능하다는 점을 최초로 입증했습니다. 기존의 분산 학습 방식들은 보통 데이터를 공유하거나, 모델 파라미터를 직접 교환하는 데 초점을 맞추었으나, 이 연구는 협업 전략 자체를 '데이터 공유'에서 '참조 측정값(reference measures)'을 통한 로컬 귀납적 편향(local inductive bias) 공유로 전환합니다.

핵심 방법론은 클라이언트들이 경험적 위험 최소화와 상대 엔트로피 정규화 (Empirical Risk Minimization with Relative-Entropy Regularization, ERM-RER) 학습 프레임워크를 채택하는 것입니다. 이 구조 하에서, 클라이언트 간에 순방향-역방향(forward-backward) 통신이 이루어지며, 공유되는 정보는 오직 로컬에서 계산된 **깁스 측정값 (Gibbs measures)**입니다.

가장 중요한 아이디어는 다음과 같습니다: 클라이언트 $k$가 생성한 깁스 측정값이 다음 클라이언트 $k+1$에게 참조 측정값(reference measure)으로 사용됩니다. 이 과정을 통해, 마치 중앙 집중식 학습이 모든 데이터에 접근하는 것처럼 작동할 수 있도록 사전 정보(prior information)를 체계적으로 인코딩하는 원리가 확립되었습니다.

결과적으로, 분산 환경에서 중앙 성능을 달성하기 위해서는 정규화 계수(regularization factors)가 로컬 샘플 크기(local sample sizes)에 맞춰 특정 방식으로 스케일링 되어야 한다는 조건이 도출됩니다. 이 결과는 데이터 공유의 한계를 극복하고, 모델 집합(set of models)에 걸친 참조 측정값을 통해 협업 전략을 재정립하는 새로운 분산 학습 패러다임의 문을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

데이터 공유 없이 중앙 성능 보장하는 분산 학습 방법론

요약

핵심 포인트

댓글