본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 03:22

적대적 커널화된 밴딧을 위한 거의 최적 알고리즘

요약

본 논문은 적대적 환경에서 커널화된 밴딧(kernelized bandits) 문제를 다루며, 특히 알려진 재생 커널 힐베르트 공간(RKHS) 내의 보상 함수가 매 라운드마다 적대적으로 선택될 수 있는 상황을 가정합니다. 연구진은 지수 가중치 알고리즘을 제안하여 $ ilde{O}(\sqrt{T \gamma_T})$의 적대적 후회(adversarial regret)를 달성함을 증명했습니다. 또한, 이 알고리즘이 다항로그 계수까지 최적임을 보장하는 하한 경계를 제시하고, 계산 효율성을 높인 변형도 제안합니다.

핵심 포인트

  • 적대적 환경에서의 커널화된 밴딧(Kernelized Bandits) 문제를 연구함.
  • 지수 가중치 알고리즘을 통해 $ ilde{O}(\sqrt{T \gamma_T})$의 적대적 후회(Adversarial Regret)를 달성함을 증명함.
  • 제안된 알고리즘이 다항로그 계수까지 최적임을 보장하는 하한 경계를 제시함.
  • Nyström 근사 기법을 활용하여 계산 효율성을 유지하면서도 거의 최적의 후회 보장을 제공함.

본 논문은 적대적 환경에서 커널화된 밴딧(kernelized bandits, 가우시안 프로세스 밴딧으로도 알려짐)을 연구합니다. 이 환경에서는 알려진 재생 커널 힐베르트 공간(reproducing kernel Hilbert space, RKHS) 내의 보상 함수가 매 라운드마다 적대적으로 선택될 수 있습니다. 우리는 지수 가중치 알고리즘이 $ ilde{O}(\sqrt{T γ_T})$의 적대적 후회(adversarial regret)를 달성함을 보여줍니다. 여기서 $T$는 총 라운드 수를, $\gamma_T$는 최대 정보 획득량을 나타냅니다. 또한, 제곱 지수(SE) 및 $
u$-Matérn 커널에 대해 알고리즘 독립적인 하한 경계를 제시하여 우리의 알고리즘이 다항로그 계수까지 최적임을 보장합니다. 나아가, 우리는 Nyström 근사(Nyström approximation)을 사용하여 계산적으로 효율적인 알고리즘 변형을 제시하면서도 거의 최적의 후회 보장을 유지합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0