arXiv논문2026. 06. 19. 11:09

유계 노이즈를 가진 확률적 선형 컨텍스츄얼 밴딧: 집합 멤버십 접근 방식

요약

보상 노이즈가 유계된 확률적 선형 컨텍스츄얼 밴딧(SLCB) 문제를 다루는 논문입니다. 집합 멤버십 추정(SME)과 낙관주의 원칙을 결합한 SME-OFU 알고리즘을 제안하여 기존 $\tilde{O}(\sqrt{T})$보다 개선된 $O(\log T)$의 후회 한계를 달성했습니다.

핵심 포인트

유계 노이즈를 활용한 새로운 SME-OFU 알고리즘 제안
기존 서브 가우시안 가정 대비 개선된 $O(\log T)$ 후회 한계 달성
집합 멤버십 추정(SME)을 통한 불확실성 정량화 적용
시뮬레이션을 통해 기존 벤치마크 대비 성능 우위 입증

본 논문은 보상 노이즈(reward noise)가 유계(bounded)인 확률적 선형 컨텍스츄얼 밴딧 (Stochastic Linear Contextual Bandits, SLCB)을 다룹니다. 기존 연구들은 일반적으로 서브 가우시안(sub-Gaussian) 보상 노이즈와 유계된 기대 보상을 가정하며, 이 경우 최적의 후회 한계(regret bound)는 호라이즌(horizon) $T$에 대해 $\tilde{O}(\sqrt{T})$로 확장됩니다. 그러나 많은 응용 분야에서 실제로 실현되거나 관찰되는 보상은 자연스럽게 유계되어 있으며, 이는 보상 노이즈가 유계되어 있음을 의미합니다. 유계 노이즈는 서브 가우시안 조건보다 더 많은 정보를 제공하지만, SLCB 문헌에서는 명시적으로 활용되지 않았습니다. 본 논문에서는 집합 멤버십 추정 (Set-Membership Estimation, SME)이라고 불리는 불확실성 정량화 방법을 활용하고, 불확실성에 직면했을 때의 낙관주의 (Optimism in the Face of Uncertainty, OFU) 원칙을 적용하여 새로운 알고리즘인 SME-OFU를 제안합니다. 우리의 알고리즘은 개선된 후회 한계 $O(\log T)$를 누립니다. 유계 노이즈는 더 강력한 조건이기 때문에, 이것이 서브 가우시안 노이즈에 대한 기존의 최적 한계인 $\tilde{O}(\sqrt{T})$와 모순되지 않는다는 점에 유의하십시오. 마지막으로, 시뮬레이션 결과는 보상 노이즈가 유계되어 있을 때 SME-OFU가 서브 가우시안 노이즈를 위해 설계된 벤치마크 알고리즘보다 경험적인 개선을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

유계 노이즈를 가진 확률적 선형 컨텍스츄얼 밴딧: 집합 멤버십 접근 방식

요약

핵심 포인트

댓글