개인정보 보호 및 검증 가능한 근사 분산 코딩 컴퓨팅 (Privacy-Preserving and Verifiable Approximate

분산 머신러닝 (Distributed machine learning)은 데이터를 중앙 집중화하지 않고도 협력적인 모델 학습을 가능하게 하지만, 학습 과정이 개인정보 유출 및 악의적인 조작에 노출될 위험도 존재합니다. 기존의 방어 기제들은 일반적으로 이러한 위협들을 개별적으로 다루며, 특정 학습 패러다임이나 모델 아키텍처에 맞춤화되어 있는 경우가 많아 실제 배포 환경에서의 적용 가능성이 제한적입니다. 특히, 연합 학습 (Federated learning)과 탈중앙화 학습 (Decentralized learning)은 서로 다른 적대적 공격 표면 (Adversarial surfaces)을 나타내지만, 통합된 프레임워크 내에서 다뤄지는 경우는 드뭅니다. 본 논문에서는 연합 및 탈중앙화 설정 모두에서 개인정보 보호와 악의적 행동을 공동으로 해결하는, 적대자 저항형 분산 학습 (Adversary-resistant distributed learning)을 위한 모델 불가지론적 (Model-agnostic) 프레임워크를 제시합니다. 우리의 접근 방식은 패러다임별 특화된 방어 메커니즘을 임의의 머신러닝 모델에 적용 가능한 개인정보 강화 코딩 컴퓨팅 (Coded computing) 기술인 GPBACC와 결합합니다. 연합 학습의 경우, 악의적인 참여자의 영향을 완화하기 위해 강건한 집계 (Robust aggregation) 전략을 통합하며, 탈중앙화 학습의 경우 신뢰할 수 있는 집계기 (Trusted aggregator)에 의존하지 않고도 경량화된 검증 및 적대자 격리를 가능하게 하는 근사 디코드-앤-컴페어 (Approximate decode-and-compare) 및 그룹 테스트 (Group testing) 기술을 채택합니다. 결정적으로, 우리는 명시적이고 공격 중심적인 분석을 통해 제안된 프레임워크를 평가합니다. 대표적인 개인정보 공격과 악의적 행동을 구현하였으며, GPBACC를 강건한 집계 및 검증 메커니즘과 결합했을 때 개인정보 유출이 크게 감소하고 능동적 적대자 (Active adversaries)에 대한 회복탄력성이 향상됨을 실증적으로 입증합니다. 이러한 결과는 개인정보 강화 코딩 컴퓨팅이 적절한 적대자 저항 전략과 결합될 때, 안전한 분산 머신러닝을 위한 실용적이고 배포 가능한 기반을 제공함을 시사합니다.

Insights

개인정보 보호 및 검증 가능한 근사 분산 코딩 컴퓨팅 (Privacy-Preserving and Verifiable Approximate

요약

핵심 포인트

댓글

측정 장치로서의 언어 모델 (Language Models as Measurement Apparatus)과 문화

[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa

AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

측정 장치로서의 언어 모델 (Language Models as Measurement Apparatus)과 문화

[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa

AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에