제한된 적응성을 가진 문맥적 슬레이트 GLM 밴딧 (Contextual Slate GLM Bandits)

우리는 제한된 적응성 (limited adaptivity) 하에서 일반화 선형 보상 (generalized linear rewards)을 갖는 문맥적 슬레이트 밴딧 (contextual slate bandit) 문제를 조사합니다. 매 라운드마다 학습자에게는 각 아이템이 $d$차원 특징 벡터 (feature vector)로 표현되는 $N$개의 아이템 세트가 제공됩니다. 학습자는 각 세트에서 하나의 아이템을 선택하여 슬레이트 (slate)를 구성하며, 결과적으로 생성된 슬레이트는 일반화 선형 모델 (Generalized Linear Model, GLM)에서 샘플링된 스칼라 보상을 산출합니다. 우리는 두 가지 제한된 적응성 설정 하에서의 알고리즘을 제안합니다: (a) 배치형 (Batched) 및 (b) 드물게 전환되는 방식 (Rarely-Switching). 배치형 설정의 경우, 각 배치의 정책이 이전 배치의 데이터에만 의존하도록 시간 지평 (time horizon)을 $\mathcal{O}(\log\log T)$개의 배치로 분할하는 B-SlateGLinCB를 도입합니다. 드물게 전환되는 방식의 경우, 적응적으로 $\mathcal{O}(Nd\log T)$번의 파라미터 업데이트만을 수행하는 RS-SlateGLinCB를 제안합니다. 아이템 시퀀스에 대한 다양성 가정 (diversity assumption) 하에서, 우리는 B-SlateGLinCB와 RS-SlateGLinCB가 각각 $\mathcal{O}(Nd^{3/2}\sqrt{T})$ 및 $\mathcal{O}(Nd\sqrt{T})$의 후회 한계 (regret bounds)를 달성함을 증명합니다. 특히, 두 한계 모두 일반적으로 GLM 밴딧 알고리즘의 후회를 확장시키는 비선형성 파라미터 (non-linearity parameter) $κ$와 무관합니다. 우리의 알고리즘은 $2^{Ω(N)}$개의 가능한 슬레이트에도 불구하고 라운드당 $\text{poly}(N)$ 시간만을 요구하여 계산 효율적입니다. 시뮬레이션 결과, 우리의 알고리즘은 제한된 적응성을 가진 기존 베이스라인보다 우수한 성능을 보였으며, 완전 적응형 최첨단 알고리즘인 Slate-GLM-OFU와도 경쟁력 있는 성능을 유지함을 보여줍니다. 특히, 약간 수정된 B-SlateGLinCB는 경험적으로 이 베이스라인과 일치하는 성능을 보입니다. 마지막으로, 우리는 언어 모델을 위한 실제적인 인컨텍스트 예시 선택 (in-context example selection) 작업에서 강력한 성능을 입증합니다.

Insights

제한된 적응성을 가진 문맥적 슬레이트 GLM 밴딧 (Contextual Slate GLM Bandits)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들