개인정보 보호를 강화한 클러스터형 연합 학습 프레임워크 PINA 제안
요약
본 논문은 데이터 이질성 문제를 해결하기 위해 클러스터링을 도입한 연합 학습(FL)에 차분 프라이버시(DP)를 결합하는 과정에서 발생하는 노이즈와 초기화 문제를 해결하는 새로운 프레임워크 PINA를 제안합니다. PINA는 2단계 구조로, 첫째 단계에서는 경량의 LoRA 어댑터를 사용해 업데이트 스케치를 공유하고 서버가 이를 이용해 견고한 클러스터 중심점(centroid)을 구축합니다. 둘째 단계에서는 정규성 기반 집계 메커니즘을 도입하여 수렴성과 강건성을 높입니다. 실험 결과, PINA는 기존의 최신 DP-FL 알고리즘 대비 평균
핵심 포인트
- PINA 프레임워크는 클러스터형 연합 학습(CFL)과 차분 프라이버시(DP)를 결합하는 과정에서 발생하는 노이즈 및 초기화 문제를 해결합니다.
- 첫 단계에서는 각 클라이언트가 경량의 LoRA 어댑터를 미세 조정하고 압축된 업데이트 스케치를 공유하여 서버가 견고한 클러스터 중심점을 구축할 수 있게 합니다.
- 두 번째 단계에서는 정규성 기반 집계 메커니즘을 도입하여 모델의 수렴성과 강건성을 향상시키며, 신뢰할 수 없는 서버에 대한 공식적인 프라이버시 보장을 유지합니다.
연합 학습(Federated Learning, FL)은 원본 데이터를 사용자 기기에 남겨둔 채 전역 모델을 훈련할 수 있게 하는 혁신적인 기술입니다. 하지만 FL 자체만으로는 민감한 사용자 정보가 유출될 위험이 있어, 실제 적용 시에는 차분 프라이버시(Differential Privacy, DP)나 안전 벡터 합산(secure vector sum) 같은 방법을 결합하여 참여자들에게 공식적인 프라이버시 보장을 제공하는 것이 일반적입니다.
현실 세계의 다양한 기기 환경에서 배포되는 FL은 데이터가 매우 이질적(heterogeneous)인 경우가 많아, 기본적인 연합 학습만으로는 수렴 속도가 느리고 일반화 성능이 떨어진다는 문제가 있습니다. 이러한 문제를 완화하기 위해 사용자를 클러스터로 분리하는 클러스터형 연합 학습(Clustered Federated Learning, CFL)이 도입되었으며, 이는 클러스터 내부의 데이터 이질성을 낮추는 데 도움을 줍니다.
하지만 CFL과 DP를 결합하는 과정은 여전히 어려운 과제를 안고 있습니다. DP 노이즈가 주입되면 개별 클라이언트 업데이트에 지나치게 많은 노이즈가 발생하며, 서버는 이로 인해 노이즈가 적은 집계된 업데이트를 이용해 클러스터 중심점(centroid)을 초기화하기 어렵습니다.
본 논문에서는 이러한 문제점을 해결하기 위해 PINA라는 2단계 프레임워크를 제안합니다. PINA는 다음과 같은 방식으로 작동합니다:
1. 첫 번째 단계: LoRA 기반의 개인정보 보호 업데이트 스케치 공유 및 중심점 구축
첫 번째 단계에서 각 클라이언트는 경량의 저랭크 적응(Low-Rank Adaptation, LoRA) 어댑터를 미세 조정하고, 그 업데이트를 압축된 '스케치' 형태로 비공개적으로 공유합니다. 서버는 이 스케치들을 활용하여 견고한 클러스터 중심점(robust cluster centroids)을 구축할 수 있습니다.
2. 두 번째 단계: 정규성 기반 집계 메커니즘 도입
두 번째 단계에서는 PINA가 '정규성 기반 집계 메커니즘(normality-driven aggregation mechanism)'을 도입하여 모델의 수렴성과 강건성을 향상시킵니다.
PINA는 클러스터형 FL의 장점을 유지하면서도, 신뢰할 수 없는 서버에 대한 공식적인 프라이버시 보장을 제공합니다. 광범위한 평가 결과에 따르면, 제안된 PINA 방법은 다양한 프라이버시 예산($ ext{epsilon}$이 2 또는 8인 경우)에서 기존의 최신 DP-FL 알고리즘 대비 평균 2.9% 높은 정확도를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기