arXiv논문2026. 05. 09. 06:43

Learning to Cut: Reinforcement Learning for Benders Decomposition

요약

본 논문은 불확실성 하의 2단계 확률적 프로그램을 해결하는 데 사용되는 Benders 분해(BD)의 느린 수렴 문제를 개선하기 위해 RLBD(Reinforcement Learning for BD) 프레임워크를 제안합니다. 이 프레임워크는 신경망 기반 정책을 사용하여 절단(cut)을 적응적으로 선택하며, REINFORCE 알고리즘과 같은 정책 경사 방법을 통해 훈련됩니다. 실험 결과, RLBD는 계산 효율성을 크게 향상시키고 다양한 차원의 문제에서도 강력한 일반화 성능을 입증했습니다.

핵심 포인트

Benders 분해(BD)는 불확실성 하의 의사결정 문제를 해결하는 데 유용하지만, 절단 증가에 따라 수렴 속도가 느려지는 문제가 있습니다.
RLBD 프레임워크는 신경망 기반 정책을 활용하여 필요한 절단을 적응적으로 선택함으로써 BD의 효율성을 개선합니다.
정책은 REINFORCE 알고리즘과 같은 정책 경사 방법을 사용하여 훈련됩니다.
실험 결과, RLBD는 기존 방식(LearnBD) 대비 계산 효율성 측면에서 상당한 개선을 보였으며 일반화 성능이 뛰어남을 입증했습니다.

Benders 분해 (BD) 는 불확실성 하의 현실 세계 의사결정에서 발생하는 2 단계 확률적 프로그램을 해결하기 위해 널리 사용되는 해법 접근법입니다. 그러나 문제의 마스터 문제가 증가하는 절단 수와 함께 느린 수렴을 겪는 경우가 많습니다. 본 논문에서는 신경망 기반 확률적 정책을 사용하여 절단을 적응적으로 선택하는 RLBD (Reinforcement Learning for BD) 프레임워크를 제안합니다. 정책은 REINFORCE 알고리즘을 통한 정책 경사 방법으로 훈련됩니다. 제안된 접근법은 2 단계 확률적 전기차 충전소 위치 문제에서 평가되었으며, 절단을 지원 벡터 머신으로 분류하는 감독 학습 방식인 LearnBD 와 비교했습니다. 수치 결과는 RLBD 가 계산 효율성에 상당한 개선점을 보이며 유사한 구조를 가진 문제의 데이터 입력과 결정 변수 차원이 다른 경우에도 강력한 일반화 성능을 나타낸다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Learning to Cut: Reinforcement Learning for Benders Decomposition

요약

핵심 포인트

댓글