DexHoldem: 숙련된 Embodied System을 이용한 텍사스 홀덤 플레이
요약
DexHoldem은 숙련된 하드웨어 조작과 인지 능력을 동시에 평가하기 위해 구축된 텍사스 홀덤 기반의 실세계 시스템 레벨 벤치마크입니다. 이 시스템은 ShadowHand를 활용한 정교한 조작 기술, 물리적 정책, 그리고 에이전트의 인지 능력을 종합적으로 테스트합니다. 연구 결과, 시각적 하위 능력과 완전한 상태 복구 능력 사이의 격차를 확인하였으며, 폐쇄 루프 배포 시 발생하는 오류 누적 문제를 사례 연구를 통해 보여줍니다.
핵심 포인트
- ShadowHand를 이용한 14가지 텍사스 홀덤 조작 원시 기술과 1,470개의 시연 데이터 제공
- 물리적 정책(Physical Policy)과 에이전트 인지(Agentic Perception)를 동시에 평가하는 벤치마크 구축
- GPT 5.5와 Opus 4.7의 성능 비교를 통해 시각적 하위 능력과 상태 복구 능력 간의 격차 확인
- 폐쇄 루프(Closed-loop) 환경에서 인지 및 정책 오류가 누적되는 과정을 사례 연구로 입증
실제 숙련된 (dexterous) 하드웨어에서 Embodied System (체화된 시스템)을 평가하려면 단순히 고립된 원시 기술 (primitive skills) 이상의 것이 필요합니다. 에이전트는 변화하는 테이블탑 장면을 인지하고, 문맥에 적합한 행동을 선택하며, 숙련된 손으로 이를 실행하고, 이후의 의사결정을 위해 장면을 사용 가능한 상태로 남겨두어야 합니다. 우리는 ShadowHand를 이용한 텍사스 홀덤 숙련 조작 (dexterous manipulation)을 중심으로 구축된 실세계 시스템 레벨 벤치마크인 DexHoldem을 소개합니다. DexHoldem은 14가지 텍사스 홀덤 조작 원시 기술 (manipulation primitives)에 걸친 1,470개의 원격 조작 (teleoperated) 시연 데이터, 표준화된 물리적 정책 (physical policy) 벤치마크, 그리고 에이전트가 Embodied 의사결정에 필요한 구조화된 게임 상태를 복구할 수 있는지 테스트하는 에이전트 인지 (agentic perception) 벤치마크를 제공합니다. 원시 기술 실행 측면에서 $π_{0.5}$가 가장 높은 작업 완료율 ($61.2%$)을 기록했으며, 장면 보존 성공률 (scene-preserving success rate)에서는 $π_{0.5}$와 $π_0$가 동일한 수치 ($47.5%$)로 공동 1위를 차지했습니다. 에이전트 인지 측면에서는 Opus 4.7이 가장 높은 엄격한 문제 수준 정확도 (strict problem-level accuracy, $34.3%$)를 얻은 반면, GPT 5.5는 가장 높은 평균 필드별 정확도 (average field-wise accuracy, $66.8%$)를 기록하여, 고립된 시각적 하위 능력 (visual sub-capabilities)과 완전한 라우팅 관련 상태 복구 (routing-relevant state recovery) 사이의 격차를 드러냈습니다. 마지막으로, 우리는 세 가지 사례 연구를 통해 전체 Embodied-Agent 루프를 구현하였으며, 여기서 대기, 복구 파견 (recovery dispatches), 인간 도움 요청, 그리고 반복적인 원시 기술 실행은 폐쇄 루프 (closed-loop) 배포 중에 인지 및 정책 오류가 어떻게 누적되는지를 보여줍니다. 따라서 DexHoldem은 공유된 물리적 환경에서 숙련된 테이블탑 실행, 에이전트 인지, 그리고 Embodied 의사결정 라우팅을 평가합니다. 프로젝트 페이지: https://dexholdem.github.io/Dexholdem/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기