지연된 마켓플레이스 피드백을 활용한 다중 에이전트 강화학습: 삼자 배차 시스템의 목표 가중치 적응
요약
본 논문은 DoorDash와 같은 삼자 마켓플레이스 환경에서 지연된 운영 피드백을 활용하여 배차 목표 가중치를 적응시키는 강화학습 시스템을 제안합니다. 이 시스템은 기존 최적화기를 대체하기보다, 기록된 데이터 기반의 정책이 이산적인 승수를 선택해 배송 품질과 배치 효율성 간의 트레이드오프를 조정합니다. 이를 통해 노이즈가 있고 지연된 환경에서도 안전하게 오프라인 정책 학습을 수행할 수 있음을 입증했습니다.
핵심 포인트
- 지연된 운영 피드백을 활용한 강화학습 시스템 제시
- 배차 목표 가중치를 적응시켜 트레이드오프 조정 가능
- 노이즈/지연 환경에서 안전한 오프라인 정책 학습 구현
- 실제 실험에서 배치 증가 및 비용 감소 효과 입증
삼자(three-sided) 마켓플레이스의 배차는 세계 피드백으로부터의 강화학습에 자연스러운 환경을 제공합니다. 즉, 결정은 배송 속도, 쿠리어 활용률, 상점 혼잡도와 같은 지연된 운영 결과로 평가됩니다. 저희는 DoorDash에서 대규모 음식 배달 마켓플레이스 내에서 지연 신호를 사용하여 배차 목표 가중치를 적응시키는 배포형 강화학습 시스템을 제시합니다. 조합 할당 최적화기(combinatorial assignment optimizer)를 대체하기보다는, 기록된 마켓플레이스 데이터로부터 학습된 상점 수준의 정책이 이산적인 승수(discrete multiplier)를 선택하여 배차 최적화기가 배송 품질과 배치 효율성 사이에서 가지는 트레이드오프(tradeoff)를 조정합니다. 이 인터페이스는 생산 실현 가능성 제약 조건 및 운영 안전장치를 유지하면서, 노이즈가 있고 지연되며 결합된 피드백 하에서 오프라인 정책 학습을 가능하게 합니다. 저희는 중앙 집중식 오프라인 데이터와 분산형 상점 수준 실행을 사용하여 공유 가치 함수를 훈련하며, Double Q-learning 타겟과 보수적 정규화기(conservative regularizer)를 사용하여 분포 외(out-of-distribution) 값 과대평가를 줄입니다. 실제 전환 실험에서, 오프라인으로 훈련된 정책은 배치를 늘리고 쿠리어 측 시간 비용을 감소시키면서도 고객에게 노출되는 배송 품질을 저하시키지 않았습니다. 이 결과들은 살아있는 경제 및 물류 시스템의 세계 피드백이 어떻게 온라인에서 의사결정 정책을 안전하게 적응시키는 데 사용될 수 있는지 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기