선제적 대화형 질의를 활용한 증명 가능한 효율성을 갖춘 개인화된 다중 목적 밴딧 (Personalized Multi-Objective
요약
사용자의 선제적 대화형 질의를 활용하여 다중 목적 밴딧(Multi-objective bandits)의 개인화된 의사결정을 최적화하는 새로운 프레임워크를 제안합니다. 질의 기반 선호도 앵커링과 이중 탐색 UCB를 결합한 MO-PQUCB 알고리즘을 통해 선호도 추정 속도와 후회 스케일링을 개선했습니다.
핵심 포인트
- 선제적 질의를 통한 구조화된 선호도 신호 활용
- MO-PQUCB 하이브리드 알고리즘 도입
- 이동 불변 정규화 및 이중 탐색 UCB 적용
- 기존 방법 대비 개선된 후회 스케일링 증명
- 오염된 질의 환경에서의 강건한 추정기 설계
다중 목적 밴딧 (Multi-objective bandits)에서의 개인화된 의사결정은 상충하는 목적들 사이의 사용자별 트레이드오프 (trade-offs)를 학습하는 것을 필요로 합니다. 팔 (arm)의 효용 (utility)은 알려지지 않은 보상 (rewards)과 알려지지 않은 선호도 (preferences) 모두에 의존하기 때문에, 기존 방법들은 효용 피드백으로부터만 선호도를 추론하며, 이로 인해 선호도 학습과 보상 탐색 (reward exploration)이 뒤엉키게 됩니다. 그러나 실제 상황에서 사용자들은 선제적 대화형 질의 (proactive conversational queries, 예: "저렴하고 깨끗한 호텔")를 통해 자신의 우선순위를 드러내는 경우가 많지만, 이러한 구조화된 신호는 활용되지 않고 있습니다. 우리는 사용자 질의가 구조화된 선호도 신호를 제공하는 선제적 질의 기반 프레임워크 (proactive query-based framework)를 공식화합니다. 이러한 신호들을 Plackett-Luce 부분 집합 선택 모델 (subset choice model)을 통해 모델링함으로써, 우리는 질의 전용 학습 (query-only learning)이 근본적인 이동 불변성 장벽 (shift-invariance barrier)으로 인해 불충분함을 보여줍니다. 이를 해결하기 위해, 우리는 이동 불변 정규화 (shift-invariant regularization)와 이중 탐색 UCB (dual-exploration UCB)를 통해 질의 기반 선호도 앵커링 (preference anchoring)과 밴딧 피드백을 통합하는 하이브리드 알고리즘인 MO-PQUCB를 도입합니다. 우리는 선제적 질의가 선호도 추정을 가속화하고, 기존의 선호도 인지형 MO-MAB 방법들보다 개선된 후회 스케일링 (regret scaling)을 산출함을 증명합니다. 오염된 질의 (corrupted queries) 환경 하에서, 우리는 통계적 한계를 추가로 규명하고 오염이 희소할 (sparse) 때 최적에 가까운 성능을 달성하는 강건한 추정기 (robust estimator)를 설계합니다. 실험을 통해 이론적 및 실무적 이득을 모두 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기