StratFormer: 불완전 정보 게임에서의 적응적 상대 모델링 및 활용
요약
StratFormer는 불완전 정보 게임에서 상대를 동시에 모델링하고 이를 전략적으로 활용하는 트랜스포머 기반 메타 에이전트입니다. 이 모델은 두 단계 커리큘럼을 통해, 초기에는 GTO 정책에 따라 상대의 행동 패턴을 학습하며, 점차 각 상대별로 최적 응답(BR) 활용으로 전환됩니다. Leduc Hold'em과 같은 포커 게임 변형에서 테스트된 StratFormer는 기존 GTO 대비 평균적으로 상당한 수준의 활용 가능성 증가를 달성하여 높은 성능을 입증했습니다.
핵심 포인트
- StratFormer는 불완전 정보 게임(Imperfect Information Games)에 특화된 트랜스포머 기반 메타 에이전트입니다.
- 두 단계 커리큘럼을 사용하여, 먼저 상대 모델링을 학습하고 점진적으로 최적 응답(BR) 활용으로 정책을 전환합니다.
- 듀얼 턴 토큰과 버킷-레이트 특징 같은 독자적인 아키텍처 요소를 도입하여 에이전트와 상대를 정교하게 인코딩합니다.
- Leduc Hold'em 테스트에서 GTO 대비 평균 +0.106 BB의 활용 증가를 달성하며, 특히 고활용 상대에게서 큰 이점을 보였습니다.
우리는 StratFormer 를 제시합니다. StratFormer 는 두 단계 커리큘럼을 통해 불완전 정보 게임에서 상대를 동시에 모델링하고 활용하는 트랜스포머 기반 메타 에이전트입니다. 첫 번째 단계에서는 게임 이론적 최적 (GTO) 정책을 따르면서 플레이할 때 행동 이력으로부터 행동 패턴을 식별하기 위해 상대 모델링 헤드를 훈련합니다. 두 번째 단계에서는 각 상대에 대한 정규화 스케줄이 활용 가능성 (exploitability) 과 연결되어 가이드를 받으며, 정책을 점진적으로 최선 응답 (BR) 활용으로 전환시킵니다. 우리의 아키텍처는 에이전트와 상대의 결정 지점에서 모두 구성된 특징 벡터인 듀얼 턴 토큰 (dual-turn tokens) 과 다섯 가지 전략적 맥락을 아우르는 상대 경향성을 인코딩하는 버킷-레이트 특징 (bucket-rate features) 을 도입합니다. 6 장의 카드와 두 번의 베팅 라운드를 가진 작은 포커 변형인 Leduc Hold'em 에서, 우리는 각기 두 가지 강도 수준의 6 가지 상대 원형을 대상으로 테스트를 수행했습니다. 이 경우 한 손당 활용 가능성은 0.15 에서 1.26 빅 블라인드 (BB) 범위였습니다. StratFormer 는 GTO 대비 평균적으로 한 손당 +0.106 BB 의 활용 증가를 달성했으며, 특히 고도로 활용 가능한 상대에게는 최대 +0.821 BB 의 증가를 보이며 균일 상태의 안전성을 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기