본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 16:54

소프트맥스 다중 팔트 밴디트 (MAB) 를 위한 소멸하는 L2 정규화

요약

본 논문은 다중 팔트 밴디트(MAB) 알고리즘의 최적 정책을 규정하는 데 사용되는 소프트맥스 매핑 기반 접근법을 개선합니다. 기존 연구들이 평균 보상에서 L2 정규화를 적용한 소프트맥스 정책 경사(L2 regularized softmax policy gradient)를 다루었으나, 정규화 파라미터가 소멸할 때의 수렴성 분석에 어려움이 있었습니다. 본 연구는 이 문제에 대한 이론적 수렴 결과를 증명하고, 표준 벤치마크에서 해당 방법론의 수치적 우수성을 실험적으로 입증합니다.

핵심 포인트

  • MAB 알고리즘은 강화 학습(RL)의 핵심 요소이며, 소프트맥스 매핑이 정책 결정에 일반적으로 사용된다.
  • 본 연구는 평균 보상에서 2차 항을 빼는 L2 정규화된 소프트맥스 정책 경사(L2 regularized softmax policy gradient)를 제안한다.
  • 기존 연구의 한계점인 '정규화 파라미터가 소멸할 때의 수렴성' 문제를 이론적으로 해결하고 증명했다.
  • 제안된 방법론이 표준 벤치마크에서 L2 정규화를 통해 수치적으로 우수함을 실험적으로 검증했다.

다중 팔트 밴디트 (Multi Armed Bandit, MAB) 알고리즘은 강화 학습의 핵심 요소로, 이론적 및 수치적 측면에서 광범위하게 연구되어 왔습니다. 가장 일반적으로 사용되는 구현 중 하나는 최적 정책을 규정하기 위해 소프트맥스 (softmax) 매핑을 적용한 것으로, 이는 REINFORCE 를 포함한 하류 알고리즘의 기반이 되었습니다. 기본 접근법과 달리, 여기에서는 평균 보상에서 2 차 항을 빼는 L2 정규화 소프트맥스 정책 경사 (L2 regularized softmax policy gradient) 를 고려합니다. 이전 연구들은 볼록성 (convexity) 을 활용했으나, 정규화 파라미터가 소멸할 때 수렴성을 분석하기 적합한 이론적 프레임워크를 식별하지 못했습니다. 여기서는 이론적 수렴 결과를 증명하고, 표준 벤치마크에서 이 제도가 L2 정규화에 수치적으로 유리함을 실험적으로 확인합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0