arXiv논문2026. 05. 11. 23:07

FLAM: 연합 학습에서 집계 가능한 측정 지표를 사용한 모델 성능 평가

요약

연합 학습(FL) 환경에서 분산된 데이터를 사용하기 때문에 모델 성능 평가는 어려운 과제입니다. 기존의 접근 방식은 로컬 샘플 수에 기반한 가중 평균 등 집계 전략에 의존하며, 이는 중앙 집중식 평가와 불일치를 보일 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 전역 테스트 데이터셋 없이도 중앙 집중식 평가와 동일한 결과를 산출하는 '집계 가능한 측정 지표(Aggregatable Metrics)' 기반의 성능 평가 방법인 FLAM을 제안합니다.

핵심 포인트

연합 학습(FL) 환경에서는 분산된 데이터로 인해 모델 성능 평가가 복잡하다.
기존의 집계 전략(예: 가중 평균)은 중앙 집중식 평가와 항상 일치하지 않는 문제가 있다.
성능 지표가 정확도에만 국한되어 있어 일반화 및 불일치를 초래한다.
FLAM은 전역 테스트 데이터셋 없이도 중앙 집중식 평가와 동일한 결과를 보장하는 집계 가능한 측정 지표 기반의 성능 평가 방법을 제시한다.

성능 평가는 머신러닝(ML) 모델의 품질을 평가하고 배포 결정을 안내하는 데 필수적입니다. 연합 학습(FL)에서는 데이터가 참여자들 사이에 분산되어 있기 때문에 성능 평가가 어렵습니다. 결과적으로, 코디네이터는 로컬에서 계산된 평가 지표에 의존하여 이를 집계함으로써 글로벌 모델을 평가해야 합니다. 주요 과제 중 하나는 참여자당 로컬 샘플 수를 기반으로 하는 가중 평균과 같은 일반적인 집계 전략이 항상 중앙 집중식 평가와 동일한 결과를 산출하지 못한다는 것입니다. 기존의 성능 평가 정의는 주로 정확도에 맞춰져 있어 다른 지표로 일반화되지 못하며, 이는 참여자 기반 평가와 중앙 집중식 평가 간의 불일치를 초래합니다. 그러나 이러한 불일치는 FL 목표와 일치하지 않으며 지표를 잘못 계산하게 만듭니다. 이 문제를 해결하기 위해, 우리는 이러한 불일치의 근본적인 이유를 조사하고 전역 테스트 데이터셋이 필요 없이 중앙 집중식 평가와 동일한 결과를 산출하는 집계 가능한 측정 지표 기반의 성능 평가 방법인 FLAM을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FLAM: 연합 학습에서 집계 가능한 측정 지표를 사용한 모델 성능 평가

요약

핵심 포인트

댓글