arXiv논문2026. 05. 04. 20:06

강화학습 (RL) 의 상태별 안전성을 위한 증강 라그랑주 승수 네트워크 (ALaM)

요약

본 논문은 실제 환경에서 강화학습(RL)의 핵심 난제인 안전성을 다루며, 상태별 제약을 처리하기 위해 '증강 라그랑주 승수 네트워크(ALaM)' 프레임워크를 제안합니다. 기존 방법론이 겪던 불안정한 쌍대 경사상승 문제를 해결하기 위해 ALaM은 2차 페널티 도입과 감독 회귀 학습을 결합하여 안정적인 상태별 승수 학습을 가능하게 합니다. 이를 통해 개발된 SAC-ALaM 알고리즘은 안전성과 보상을 모두 극대화하며 최첨단 성능을 달성함을 입증했습니다.

핵심 포인트

강화학습(RL)의 주요 도전 과제는 실제 환경에서의 '안전성' 확보입니다.
기존 라그랑주 방법론은 상태별 제약 처리 시 훈련 진동 및 불안정성을 보였습니다.
ALaM 프레임워크는 2차 페널티와 감독 회귀를 결합하여 상태별 승수 학습의 안정성을 혁신적으로 개선했습니다.
제안된 SAC-ALaM 알고리즘은 안전성 제약과 최대 보상 달성을 동시에 최적화하며 높은 성능을 보여줍니다.

실제 세계의 강화학습 (RL) 에서 안전성은 주요 도전 과제입니다. 안전 요구사항을 상태별 제약으로 형식화하는 것은 두드러진 패러다임이 되었습니다. 라그랑주 방법으로 상태별 제약을 처리하려면 각 상태마다 별도의 승수를 필요로 하며, 이는 신경 네트워크가 이를 승수 네트워크로 근사해야 함을 의미합니다. 그러나 표준 쌍대 경사상승 (dual gradient ascent) 을 승수 네트워크에 적용하면 심각한 훈련 진동 (training oscillations) 이 발생합니다. 이는 쌍대 상승의 내재적 불안정성이 신경 네트워크 일반화 (network generalization) 로 인해 악화되기 때문입니다 -- 지역 과과다 (local overshoots) 와 지연된 업데이트가 인접 상태로 전파되어 정책 변동 (policy fluctuations) 을 더욱 증폭시킵니다. 기존 안정화 기법은标量 승수 (scalar multipliers) 에 설계되어 있어, 상태 의존적 승수 네트워크에는 부적합합니다. 이 과제를 해결하기 위해, 우리는 안정적인 상태별 승수 학습을 위한 증강 라그랑주 승수 네트워크 (ALaM) 프레임워크를 제안했습니다. ALaM 은 두 가지 핵심 구성 요소로 이루어져 있습니다. 첫째, 증강 라그랑주에 2 차 페널티 (quadratic penalty) 를 도입하여 지연된 승수 업데이트를 보상하고 최적점 근처의 지역 볼록성 (local convexity) 을 확립함으로써 정책 진동을 완화합니다. 둘째, 승수 네트워크는 쌍대 목표 (dual target) 로 향하는 감독 회귀 (supervised regression) 를 통해 훈련되어 훈련 안정성을 확보하고 수렴을 촉진합니다. 이론적으로, 우리는 ALaM 이 승수 수렴을 보장하며 따라서 제약 문제의 최적 정책을 복원한다고 증명했습니다. 이 프레임워크를 바탕으로, 우리는 soft actor-critic (SAC) 과 ALaM 을 통합하여 SAC-ALaM 알고리즘을 개발했습니다. 실험 결과, SAC-ALaM 은 안전성과 보상 (return) 에서 최첨단 안전한 RL 기법들을 능가하며, 훈련 동역학 안정화와 위험 식별을 위한 잘 조정된 승수 학습을 동시에 달성함을 증명했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL) 의 상태별 안전성을 위한 증강 라그랑주 승수 네트워크 (ALaM)

요약

핵심 포인트

댓글