arXiv논문2026. 06. 08. 11:20

국소적 공개(Local Disclosure)를 통한 전략적 에이전트 환경에서의 오프-폴리시 평가 (Off-Policy Evaluation)

요약

전략적 행동으로 인해 발생하는 공변량 변화(covariate shift) 문제를 해결하기 위한 새로운 오프-폴리시 평가(OPE) 방법론을 제안합니다. 국소적 정보 공개를 통해 정보 손실을 완화하고, 이중 강건 추정량을 구축하여 정책 가치를 정확히 추정합니다.

핵심 포인트

전략적 행동에 의한 정책 의존적 공변량 변화 문제 해결
국소적 정보 공개를 통한 사전 전략적 공변량 복원
에이전트 반응에 대한 통계적 모델 및 이중 강건 추정량 구축
상호작용 설계를 통한 정보 비대칭 완화 가능성 제시

우리는 의사결정 대상(또는 에이전트)이 공변량(covariates)을 전략적으로 수정함으로써 의사결정자의 정책(policy)에 대응하는 전략적 행동(strategic behavior) 하에서의 오프-폴리시 평가 (Off-Policy Evaluation, OPE)를 연구합니다. 이러한 행동은 정책에 의존적인 공변량 변화(policy-dependent covariate shift)를 유발하며, 공변량이 정책에 외생적(exogenous)이라는 기존 방법론의 표준 가정을 깨뜨립니다. 관련 연구들은 반복적인 상호작용(repeated interactions)이나 에이전트의 반응 행동에 대한 완전한 지식과 같은 강력한 가정을 부과함으로써 이 과제를 해결하려 했으나, 이는 OPE에 대한 적용 가능성을 크게 제한합니다. 이와 대조적으로, 우리는 의사결정자가 에이전트의 반응 행동에 대해 부분적인 지식만을 갖는 일회성 (one-shot) OPE 설정을 고려합니다. 우리의 핵심 통찰은 사후 설명(post-hoc explanations)을 통해 국소적 정보(local information)를 공개함으로써, 적응(adaptation) 이전의 에이전트의 사전 전략적 공변량(pre-strategic covariates)을 드러내어 전략적 행동으로 인해 발생하는 정보 손실을 완화할 수 있다는 것입니다. 이러한 구조를 활용하여, 우리는 에이전트의 반응에 대한 통계적 모델을 추정하고 정책 가치(policy value)를 위한 이중 강건 추정량 (doubly robust estimator)을 구축합니다. 에이전트의 비용 민감도(cost sensitivity)가 조건부 로그-정규 분포 (conditional log-normal distribution)를 따른다고 가정함으로써, 우리는 제안된 추정량의 일치성 (consistency)을 입증하고 우리의 접근 방식을 경험적으로 검증합니다. 더 넓게는, 우리의 결과는 상호작용 설계 (interaction design)가 에이전트의 전략적 반응 속에 숨겨진 구조를 드러냄으로써 정보 비대칭 (information asymmetry)을 어떻게 완화할 수 있는지를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

국소적 공개(Local Disclosure)를 통한 전략적 에이전트 환경에서의 오프-폴리시 평가 (Off-Policy Evaluation)

요약

핵심 포인트

댓글