다중 목적 제약 최적화를 위한 다중 에이전트 시스템
요약
동적 환경에서 비용 최소화와 제약 조건 준수 사이의 균형을 맞추기 위한 MAMO 프레임워크를 제안합니다. 다중 에이전트 강화학습을 통해 보상 가중치 선택을 자동화하여 비정상적 환경에서도 견고한 최적화를 지원합니다.
핵심 포인트
- 기존 Lagrangian 방식의 수동 가중치 설정 문제 해결
- MAMO: 다중 에이전트를 활용한 다중 목적 제약 최적화 접근법
- 보상 가중치 선택을 학습 문제로 정식화하여 작업과 설계 분리
- 비정상적(non-stationary) 환경에서의 자율적이고 견고한 솔루션 제공
컴퓨팅 및 네트워킹 시스템의 많은 의사 결정 문제들은 성능 제약 조건 하에서의 비용 최소화 문제로 자연스럽게 정식화될 수 있습니다. 동적인 환경에서, 강화학습 (RL)은 Lagrangian(라그랑주) 방식의 정식화를 따라 가중 페널티 항을 통해 비용과 제약 조건 위반을 하나의 스칼라 보상에 통합함으로써, 실행 시간(runtime) 동안 이러한 문제들을 해결하기 위해 자주 사용됩니다. 그러나 이러한 맥락에서 학습된 정책 (policy)의 동작은 일반적으로 수동으로 선택되는 이러한 가중치의 선택에 결정적으로 의존합니다. 이는 주 목적을 최적화하는 것과 제약 조건 위반을 효과적으로 피하는 것 사이의 적절한 트레이드오프 (trade-off)를 식별하는 것을 어렵게 만들며, 특히 그 상대적 중요성이 변할 수 있는 비정상적 (non-stationary) 환경에서 더욱 그러합니다. 본 논문은 다중 에이전트 강화학습 (multi-agent RL)을 통해 이러한 균형 문제를 해결하기 위한 접근 방식인 MAMO (Multi-Agent system for Multi-Objective constrained optimization)를 제시합니다. MAMO는 보상 가중치의 선택을 학습 문제로 정식화함으로써 작업 실행을 목적 설계로부터 분리하며, 이는 동적인 환경에서의 제약 최적화 문제에 대해 더욱 자율적이고 견고한 RL 기반 솔루션을 향한 첫 번째 단계를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기