제약 조건이 있는 다중 목적 심층 강화학습을 통한 연합 에지 학습에서의 훈련 및 추론 공동 최적화
요약
연합 에지 학습(FEEL) 환경에서 훈련과 추론을 동시에 최적화하는 온라인 프레임워크를 제안합니다. C-MOPPO 알고리즘을 통해 지연 시간, 에너지 소비, 추론 정확도 사이의 최적의 균형을 달성합니다.
핵심 포인트
- 연합 훈련과 추론의 공동 최적화 프레임워크 제안
- 데이터 및 모델 신선도를 정확도 공식에 통합
- C-MOPPO 알고리즘을 통한 다중 목적 최적화 해결
- 지연 시간 및 에너지 소비 최소화와 정확도 최대화 달성
연합 에지 학습 (Federated Edge Learning, FEEL)은 데이터 프라이버시를 보호하면서 에지 디바이스 간의 협력적 모델 훈련을 가능하게 함으로써 에지 지능 (Edge Intelligence, EI)을 달성하기 위한 유망한 패러다임으로 최근 부상했습니다. 본 논문에서는 자원이 제한된 에지 디바이스에서 연합 훈련 (Federated Training)과 추론 (Inference)을 공동으로 관리하는 온라인 최적화 프레임워크를 제안합니다. 우리는 추론 요청과 훈련 데이터를 연결하는 탠덤 큐 (Tandem-queue)에서 영감을 얻은 변환 메커니즘을 도입하며, 나아가 실제 환경의 시간적 역학을 포착하기 위해 데이터 및 모델 신선도 (Freshness)를 정확도 공식에 통합합니다. 지연 시간 (Latency)과 에너지 소비를 최소화하면서 추론 정확도를 최대화하기 위해, 에지 디바이스의 모드 선택, 통신 및 연산 자원 할당을 공동으로 최적화합니다. 우리는 이 최적화를 NP-난해 (NP-hard) 문제이자 온라인 설정으로 인해 더욱 복잡해진 다중 목적 최적화 (Multi-objective Optimization) 문제로 정식화합니다. 이러한 과제를 해결하기 위해, 우리는 이 문제를 다중 목적 마르코프 결정 과정 (Multi-objective Markov Decision Process, MOMDP)으로 변환하고, 제약 조건이 있는 다중 목적 근사 정책 최적화 (Constrained Multi-objective Proximal Policy Optimization, C-MOPPO) 알고리즘을 개발합니다. 구체적으로, C-MOPPO는 먼저 세 가지 목적에 대해 서로 다른 선호도를 가진 정책 세트를 학습한 다음, 제약 조건이 있는 정책 최적화 (Constrained Policy Optimization)를 활용하여 파레토 프런트 (Pareto front)를 풍부하게 하고 고품질의 조밀한 솔루션을 얻습니다. 광범위한 실험을 통해 C-MOPPO가 목적들 사이에서 잘 균형 잡힌 트레이드오프 (Trade-off)를 달성하며, 다양한 시스템 구성 하에서 베이스라인 (Baselines) 모델보다 성능이 크게 뛰어남을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기