arXiv논문2026. 06. 05. 13:45

DNQ: 부분 관측 가능한 n-인 게임을 위한 심층 Nash Q-네트워크 (Deep Nash Q-Network)

요약

부분 관측 가능한 n-인 게임 환경에서 입찰 에이전트를 훈련하기 위한 DNQ 프레임워크를 제안합니다. 공유 비평가를 활용한 쌍별 보상 추정 방식을 통해 계산 비용을 줄이면서도 전략적 평형을 학습할 수 있습니다.

핵심 포인트

DNQ: 솔버 인 더 루프 평형 감독 프레임워크 제안
쌍별 보상 행렬을 통한 계산 효율성 및 확장성 확보
KL 발산을 최소화하여 평형 전략을 정책에 모방
정확한 방식 대비 훈련 시간과 계산 비용의 획기적 단축

경매, 자원 할당, 보안 경쟁과 같이 많은 현실 세계의 경쟁 시스템은 공유된 제약 조건, 제한된 정보 및 반복적인 상호작용 하에서 여러 의사 결정자가 동시에 행동할 것을 요구합니다. 본 연구에서는 이러한 문제들을 위한 통제된 테스트베드(testbed)로서 다회차 동시 입찰(multi-turn simultaneous bidding)을 연구하며, 입찰 에이전트(bidding agents)를 훈련하기 위한 솔버 인 더 루프(solver-in-the-loop) 평형 감독 프레임워크인 DNQ를 제안합니다. DNQ는 궤적 수집(trajectory collection), 비평가 기반 보상 추정(critic-based payoff estimation), 평형 계산(equilibrium computation), 그리고 정책 모방(policy imitation)을 교대로 수행합니다. 방문하는 각 상태(state)에서, 공유 비평가(shared critic)는 쌍별 보상 행렬(pairwise payoff matrices) 또는 정확한 N-인 보상 텐서(exact N-player payoff tensor) 중 하나를 예측하며, 외부 솔버(external solver)는 평형 전략(equilibrium strategies)을 계산하고, 에이전트들은 자신의 마스크된 정책(masked policies)과 솔버로부터 유도된 평형 목표(equilibrium targets) 사이의 KL 발산(KL divergence)을 최소화함으로써 훈련됩니다. 우리는 정확한 공식(exact formulation)에 비해 평형 계산 비용과 훈련 시간을 크게 줄이는 확장 가능한 쌍별 공식(pairwise formulation)에 집중하며, 이때 공유 비평가는 에이전트와 상태 전반에 걸쳐 보상 학습을 분할 상환(amortize)합니다. 실험에서는 비평가 손실(critic loss), 정책 엔트로피(policy entropy), 입찰 자원 사용량, 훈련 비용을 사용하여 쌍별 방식과 정확한 방식의 변형을 비교하였으며, 쌍별 방식은 더 많은 수의 에이전트로 확장 가능한 반면, 정확한 방식은 결합 게임(joint game)이 커짐에 따라 계산적으로 비실용적이 된다는 것을 보여줍니다. 이러한 결과는 반복적인 경쟁 환경에서 전략적 충실도(strategic fidelity)와 확장성(scalability) 사이의 트레이드오프(trade-off)를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DNQ: 부분 관측 가능한 n-인 게임을 위한 심층 Nash Q-네트워크 (Deep Nash Q-Network)

요약

핵심 포인트

댓글