arXiv논문2026. 05. 06. 16:54

소프트맥스 다중 팔트 밴디트 (MAB) 를 위한 소멸하는 L2 정규화

요약

본 논문은 다중 팔트 밴디트(MAB) 알고리즘의 최적 정책을 규정하는 데 사용되는 소프트맥스 매핑 기반 접근법을 개선합니다. 기존 연구들이 평균 보상에서 L2 정규화를 적용한 소프트맥스 정책 경사(L2 regularized softmax policy gradient)를 다루었으나, 정규화 파라미터가 소멸할 때의 수렴성 분석에 어려움이 있었습니다. 본 연구는 이 문제에 대한 이론적 수렴 결과를 증명하고, 표준 벤치마크에서 해당 방법론의 수치적 우수성을 실험적으로 입증합니다.

핵심 포인트

MAB 알고리즘은 강화 학습(RL)의 핵심 요소이며, 소프트맥스 매핑이 정책 결정에 일반적으로 사용된다.
본 연구는 평균 보상에서 2차 항을 빼는 L2 정규화된 소프트맥스 정책 경사(L2 regularized softmax policy gradient)를 제안한다.
기존 연구의 한계점인 '정규화 파라미터가 소멸할 때의 수렴성' 문제를 이론적으로 해결하고 증명했다.
제안된 방법론이 표준 벤치마크에서 L2 정규화를 통해 수치적으로 우수함을 실험적으로 검증했다.

다중 팔트 밴디트 (Multi Armed Bandit, MAB) 알고리즘은 강화 학습의 핵심 요소로, 이론적 및 수치적 측면에서 광범위하게 연구되어 왔습니다. 가장 일반적으로 사용되는 구현 중 하나는 최적 정책을 규정하기 위해 소프트맥스 (softmax) 매핑을 적용한 것으로, 이는 REINFORCE 를 포함한 하류 알고리즘의 기반이 되었습니다. 기본 접근법과 달리, 여기에서는 평균 보상에서 2 차 항을 빼는 L2 정규화 소프트맥스 정책 경사 (L2 regularized softmax policy gradient) 를 고려합니다. 이전 연구들은 볼록성 (convexity) 을 활용했으나, 정규화 파라미터가 소멸할 때 수렴성을 분석하기 적합한 이론적 프레임워크를 식별하지 못했습니다. 여기서는 이론적 수렴 결과를 증명하고, 표준 벤치마크에서 이 제도가 L2 정규화에 수치적으로 유리함을 실험적으로 확인합니다.

AI 자동 생성 콘텐츠

원문 바로가기

소프트맥스 다중 팔트 밴디트 (MAB) 를 위한 소멸하는 L2 정규화

요약

핵심 포인트

댓글