arXiv논문2026. 04. 29. 12:40

StratFormer: 불완전 정보 게임에서의 적응적 상대 모델링 및 활용

요약

StratFormer는 불완전 정보 게임에서 상대를 동시에 모델링하고 이를 전략적으로 활용하는 트랜스포머 기반 메타 에이전트입니다. 이 모델은 두 단계 커리큘럼을 통해, 초기에는 GTO 정책에 따라 상대의 행동 패턴을 학습하며, 점차 각 상대별로 최적 응답(BR) 활용으로 전환됩니다. Leduc Hold'em과 같은 포커 게임 변형에서 테스트된 StratFormer는 기존 GTO 대비 평균적으로 상당한 수준의 활용 가능성 증가를 달성하여 높은 성능을 입증했습니다.

핵심 포인트

StratFormer는 불완전 정보 게임(Imperfect Information Games)에 특화된 트랜스포머 기반 메타 에이전트입니다.
두 단계 커리큘럼을 사용하여, 먼저 상대 모델링을 학습하고 점진적으로 최적 응답(BR) 활용으로 정책을 전환합니다.
듀얼 턴 토큰과 버킷-레이트 특징 같은 독자적인 아키텍처 요소를 도입하여 에이전트와 상대를 정교하게 인코딩합니다.
Leduc Hold'em 테스트에서 GTO 대비 평균 +0.106 BB의 활용 증가를 달성하며, 특히 고활용 상대에게서 큰 이점을 보였습니다.

우리는 StratFormer 를 제시합니다. StratFormer 는 두 단계 커리큘럼을 통해 불완전 정보 게임에서 상대를 동시에 모델링하고 활용하는 트랜스포머 기반 메타 에이전트입니다. 첫 번째 단계에서는 게임 이론적 최적 (GTO) 정책을 따르면서 플레이할 때 행동 이력으로부터 행동 패턴을 식별하기 위해 상대 모델링 헤드를 훈련합니다. 두 번째 단계에서는 각 상대에 대한 정규화 스케줄이 활용 가능성 (exploitability) 과 연결되어 가이드를 받으며, 정책을 점진적으로 최선 응답 (BR) 활용으로 전환시킵니다. 우리의 아키텍처는 에이전트와 상대의 결정 지점에서 모두 구성된 특징 벡터인 듀얼 턴 토큰 (dual-turn tokens) 과 다섯 가지 전략적 맥락을 아우르는 상대 경향성을 인코딩하는 버킷-레이트 특징 (bucket-rate features) 을 도입합니다. 6 장의 카드와 두 번의 베팅 라운드를 가진 작은 포커 변형인 Leduc Hold'em 에서, 우리는 각기 두 가지 강도 수준의 6 가지 상대 원형을 대상으로 테스트를 수행했습니다. 이 경우 한 손당 활용 가능성은 0.15 에서 1.26 빅 블라인드 (BB) 범위였습니다. StratFormer 는 GTO 대비 평균적으로 한 손당 +0.106 BB 의 활용 증가를 달성했으며, 특히 고도로 활용 가능한 상대에게는 최대 +0.821 BB 의 증가를 보이며 균일 상태의 안전성을 유지했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

StratFormer: 불완전 정보 게임에서의 적응적 상대 모델링 및 활용

요약

핵심 포인트

댓글