이질적인 피처 공간에서의 연합 결측치 보간 (Federated Imputation)
요약
기존 연합 학습(Federated Learning)은 클라이언트 간 피처 스키마가 일치한다고 가정하지만, 실제 정형 데이터 환경에서는 피처 서브셋이 서로 다른 이질적인 상황이 빈번합니다. 이를 해결하기 위해 제안된 FedHF-Impute는 공유된 글로벌 피처 그래프와 메시지 패싱 기술을 활용하여, 피처가 직접 겹치지 않더라도 클라이언트 간 지식을 전송하여 결측치를 효과적으로 보간합니다.
핵심 포인트
- 이질적인 피처 공간(heterogeneous feature spaces)에서 기존 FedAvg 방식의 정보 전달 한계 극복
- 구조적 피처 부재를 기존 결측치와 분리하여 처리하는 FedHF-Impute 프레임워크 제안
- 공유된 글로벌 피처 그래프를 통한 메시지 패싱으로 간접적인 클라이언트 간 지식 전송 가능
- SECOM 및 AirQuality 데이터셋에서 기존 FL 베이스라인 대비 높은 RMSE 개선 성능 입증
연합 학습 (Federated Learning, FL)은 분산된 클라이언트 간의 협력적 학습을 가능하게 하지만, 대부분의 방법론은 피처 스키마 (feature schemas)가 정렬되어 있다고 가정합니다. 그러나 클라이언트가 부분적으로 겹치는 피처 서브셋 (feature subsets)만을 관찰하는 정형 데이터 (tabular settings) 환경에서는 이러한 가정이 성립하는 경우가 드뭅니다. 이러한 이질적인 피처 공간 (heterogeneous feature spaces)에서, 파라미터 평균화 방법 (parameter-averaging methods, 예: FedAvg)은 약하게 겹치거나 서로 분리된 피처 그룹 간에 정보를 거의 전달하지 못하며, 이는 연합 결측치 보간 (federated imputation)의 효과를 제한합니다.
이를 극복하기 위해, 우리는 구조적인 피처의 부재 (structural feature unavailability)를 기존의 결측 (missingness)과 분리하고, 공유된 글로벌 피처 그래프 (shared global feature graph)를 사용하여 메시지 패싱 (message passing)을 통해 통계적으로 연관된 피처들 사이로 정보를 전파하는 연합 결측치 보간 프레임워크인 extbf{FedHF-Impute}를 제안합니다. 이를 통해 표준적인 연합 통신 (federated communication)을 유지하면서도, 로컬에서 피처들이 결코 공동으로 관찰되지 않는 경우에도 간접적인 클라이언트 간 지식 전송 (cross-client knowledge transfer)이 가능해집니다.
SECOM 및 AirQuality 데이터셋에서 시뮬레이션된 부분적 스키마 중첩 (partial schema overlap) 환경 하에 테스트한 결과, FedHF-Impute는 FL 베이스라인 대비 결측치 보간 정확도 (RMSE)를 각각 26.9%와 8.4% 향상시켰습니다. 또한 PhysioNET에서는 최상위 베이스라인과 단 0.3%의 차이만을 보이며 대등한 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기