arXiv논문2026. 05. 08. 17:06

Market-Alignment Risk in Pricing Agents: Trace Diagnostics and Trace-Prior RL

요약

본 논문은 수익 관리 에이전트(Pricing Agents)가 시장 환경에 적응하는 과정에서 발생하는 '시장-정렬 위험(Market-Alignment Risk)' 문제를 다룹니다. 기존의 표준 RL 에이전트는 목표 지표(예: RevPAR)는 달성할 수 있지만, 실제 시장과 유사한 가격 책정 전략을 학습하지 못하고 과도하게 공격적이거나 비현실적인 행동을 보입니다. 이를 해결하기 위해 'Trace-Prior RL'이라는 새로운 프레임워크를 제안합니다. 이 방법은 지연된 시장 트레이스에서 분포적 시장 전제(Distributional Market Priors)를 먼저 학습한 후, 실제 보상과 KL 페널티를 적용하여 확률적 가격 정책을 훈련함으로써, 에이전트가 목표 성능을 달성하는 동시에 시장의 현실적인 행동 패턴을 따르도록 합니다.

핵심 포인트

표준 RL 에이전트는 단일 스칼라 보상(예: RevPAR)에만 의존할 경우, 실제 시장에서 관찰되는 합리적이고 분포적인 가격 책정 전략을 학습하지 못하는 한계가 있다.
문제는 부분적으로 관측 가능한 상태 하에서의 'Goodhart 스타일 실패'로 진단되며, 에이전트가 경쟁자의 전체 시장 상황(재고, 예약 곡선 등)을 알지 못하기 때문에 발생한다.
제안된 Trace-Prior RL은 지연된 시장 트레이스에서 분포적 시장 전제를 학습하고, 이를 확률적 가격 정책 훈련에 통합하여 시장 현실성을 높인다.
이 접근 방식은 단순히 새로운 옵티마이저나 리더보드를 제공하는 것이 아니라, 스칼라 보상만으로는 포착하기 어려운 에이전트 시스템의 재현 가능한 실패 및 수정 레시피를 제시한다.

Outcome metrics는 잘못된 행동을 증명할 수 있습니다. 우리는 Hotel A 가 고정된 규칙 기반 수익 관리 경쟁자 Hotel B 에 대항하여 훈련하는 두 호텔 수익 관리 시뮬레이터에서 이 실패를 연구합니다. 표준 학습 에이전트는 near-reference RevPAR 를 달성할 수 있지만, 시장 유사한 yield management 를 학습하지 못합니다: 과도하게 공격적으로 판매하거나, 가격 인하하거나, 모달 가격 버킷으로 붕괴시킵니다. 우리는 이를 부분 관측 가능성 하의 Goodhart 스타일 실패로 진단합니다. Hotel A 는 경쟁자의 잔여 재고, 예약 곡선, 또는 가격 규칙을 관찰할 수 없으므로, 동일한 Hotel A 가 관찰 가능한 상태는 여러 가지 합리적인 Hotel B 가격을 매핑합니다. 결정론적 가치 기반 RL 과 결정론적 복제는 이 해결되지 않은 불확실성을 단축 행동으로 붕괴시킵니다. 우리는 RevPAR, 점유율, ADR, 전체 가격 버킷 분포, L1/JS 거리, 및 시드 수준 신뢰 구간을 사용하여 trace-level 진단 프로토콜을 소개합니다. 검증된 수정은 Trace-Prior RL 입니다: 지연 시장 트레이스로부터 분포적 시장 전제를 학습한 후, RevPAR 보상과 KL 페널티를 학습된 전제에 적용하여 확률적 가격 정책을 훈련합니다. 최종 정책은 Hotel B 의 RevPAR, 점유율, ADR 및 가격 분포를 시드 수준 불확실성 내에서 일치시키면서 Hotel A 의 자체 보상을 최적화합니다. 우리는 이 기여가 새로운 옵티마이저나 호텔 가격 리더보드가 아니라고 주장하며, 스칼라 보상이 쉽게 게임할 수 있고 의도된 행동은 trace 에서만 관찰 가능한 에이전트 시스템에 대한 재현 가능한 실패 및 수정 레시피입니다. 중요한 발견은 목표가 분포적일 때 더 높은 정확한 행동 정확도가 집계 트레이스 정렬을 악화시킬 수 있다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Market-Alignment Risk in Pricing Agents: Trace Diagnostics and Trace-Prior RL

요약

핵심 포인트

댓글