arXiv논문2026. 06. 30. 11:13

A3M: 반복 경매에서의 전략적 입찰을 위한 적응형, 적대적 및 다중 목적 학습

요약

반복적 다중 단위 경매 환경에서 전략적 입찰을 최적화하기 위한 A3M 프레임워크를 제안합니다. 적응형 심층 강화학습과 적대적 추론, 다중 목적 보상 설계를 통합하여 비정적 환경에서도 강건한 성능을 보입니다.

핵심 포인트

적응형 DRL과 적대적 추론을 결합한 A3M 프레임워크 제안
비정적 적대자 환경에서 후회(regret)를 30-40% 감소
효용, 경매인 수익, 공정성을 동시에 고려하는 다중 목적 최적화
차별 및 균일 가격 경매 모두에서 우수한 확장성 입증

밴딧 피드백 (bandit feedback)이 있는 반복적 다중 단위 경매 (multi-unit auctions)에서 입찰을 학습하는 것은 근본적인 과제를 제기합니다. 기존 방법들은 종종 경직된 탐색 후 활용 (explore-then-exploit) 스케줄에 의존하고, 정적 적대자 (stationary adversaries)를 가정하며, 입찰자 효용 (bidder utility)만을 최적화함으로써 적응성과 전략적 강건성 (strategic robustness)을 제한합니다. 이러한 한계를 해결하기 위해, 우리는 온라인 경매 전략 최적화를 위해 적응형 심층 강화학습 (adaptive deep reinforcement learning, DRL), 명시적 적대적 추론 (explicit adversarial reasoning), 그리고 원칙적인 다중 목적 보상 설계 (principled multi-objective reward design)를 통합한 A3M 프레임워크를 소개합니다. A3M은 탐색과 활용을 동적으로 균형 있게 조절하기 위해 액터-크리틱 (actor-critic) DRL 백본을 사용하고, 비정적 적대자 (non-stationary adversaries)에 맞선 허구적 놀이 (fictitious play)를 위한 상대 모델 (opponent model)을 채택하며, 효용 (utility), 경매인 수익 (auctioneer revenue), 그리고 공정성 (fairness)을 공동으로 극대화하기 위한 복합 보상 함수 (composite reward function)를 사용합니다. 우리는 차별 가격 경매 (discriminatory auctions)와 균일 가격 경매 (uniform price auctions) 모두에서 기존 베이스라인 (baselines)과 비교하여 이 통합된 접근 방식에 대한 최초의 종합적인 실증적 평가를 제공합니다. 결과에 따르면 A3M은 표준 설정에서 최종 후회 (final regret)를 30--40% 감소시키고, 적대적 전략 변화에 대해 강건한 성능을 유지하며, 단위 수 $K$에 따라 유리하게 확장되고, 조정 가능한 다중 목적 트레이드오프 (multi-objective trade-offs)를 가능하게 합니다. 광범위한 어블레이션 연구 (ablation study)는 각 핵심 구성 요소의 필요성을 확인시켜 줍니다. 우리의 연구는 A3M을 복잡한 경매 환경에서의 학습을 위한 강력하고 유연한 프레임워크로 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

A3M: 반복 경매에서의 전략적 입찰을 위한 적응형, 적대적 및 다중 목적 학습

요약

핵심 포인트

댓글