온라인 플랫폼에서의 데이터 기반 동적 상품 구성: 양면 시장에 대한 학습
요약
양면 시장 플랫폼에서 고객과 판매자의 선택 파라미터를 모르는 상태로 동적 상품 구성을 최적화하는 연구를 다룹니다. 데이터 기반 알고리즘을 통해 수익을 최적화하며, 전지적 벤치마크 대비 후회(regret)의 최적성을 입증했습니다.
핵심 포인트
- 불완전한 정보 환경에서의 양면 플랫폼 동적 상품 구성 연구
- 고객 및 판매자의 다항 로짓 선택 모델 파라미터 학습
- 데이터 기반 알고리즘을 통한 플랫폼 수익 최적화
- 최악의 경우 후회(worst-case regret)의 다항 로그 증가 증명
- 알고리즘의 속도 최적성(rate optimality) 입증
우리는 이산 시간 (discrete-time) 설정에서 불완전한 정보와 이질적인 고객을 가진 양면 서비스 플랫폼 (two-sided service platform)에서의 동적 상품 구성 (dynamic assortment) 문제를 연구합니다. 각 기간마다 서비스를 찾는 고객이 도착하며, 플랫폼은 표시할 판매자들의 상품 구성 (assortment)을 선택합니다. 그 후 고객은 다항 로짓 선택 모델 (multinomial logit choice model)에 따라 상품 구성 내의 최대 한 명의 판매자에게 거래를 제안합니다. 정해진 기간이 지나면, 판매자들은 받은 제안들을 검토하고 또 다른 다항 로짓 선택 모델에 따라 최대 한 명의 고객을 선택하며, 이후 이 사이클이 반복됩니다. 핵심적인 과제는 플랫폼이 고객이나 판매자 중 어느 쪽의 선택 모델 파라미터 (choice-model parameters)도 사전에 알지 못한다는 점입니다. 우리가 알기로는, 이는 양측의 선택 파라미터가 모두 알려지지 않은 상태에서의 동적 상품 구성 문제를 다룬 첫 번째 연구입니다. 우리는 플랫폼의 목적 함수를 시간에 따라 최적화하면서 이러한 파라미터들을 학습하는 데이터 기반 알고리즘 (data-driven algorithm)을 개발합니다. 우리는 모든 파라미터와 고객 도착을 사전에 알고 있는 전지적 벤치마크 (clairvoyant benchmark) 대비 수익 손실을 측정하는 후회 (regret)를 사용하여 성능을 평가합니다. 우리는 이 알고리즘의 최악의 경우 후회 (worst-case regret)가 시간에 따라 다항 로그 (polylogarithmically) 단위로 증가함을 보여주며, 이에 부합하는 하한 (lower bound)을 도출하여 알고리즘의 속도 최적성 (rate optimality)을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기