PTCG-Bench: LLM 에이전트가 포켓몬 카드 게임(Pokémon Trading Card Game)을 마스터할 수 있는가?
요약
LLM 에이전트의 전략적 의사결정과 자기 진화 능력을 평가하기 위한 새로운 벤치마크인 PTCG-Bench를 제안합니다. 포켓몬 카드 게임을 활용하여 복잡한 환경에서의 성능과 경험 축적을 통한 발전 가능성을 분석합니다.
핵심 포인트
- 포켓몬 카드 게임 기반의 새로운 LLM 에이전트 벤치마크 제시
- 단일 환경 의사결정 및 경험 기반 자기 진화 능력 평가
- LLM 에이전트의 안정적인 자기 진화는 여전히 도전적인 과제
- 에이전트 성능이 하네스 설계에 민감하게 반응함을 확인
전략적으로 복잡한 보드 게임의 경우, 인간 플레이어는 몇 라운드만 플레이한 후에도 전략을 고안하는 법을 빠르게 배울 수 있습니다. 자율 에이전트(Autonomous agents) 또한 현실적인 상호작용 환경(interactive environments)에서 유사한 능력을 필요로 하지만, 기존의 에이전트 벤치마크(benchmarks)는 이러한 전략적이고 진화하는 의사결정 시나리오를 완전히 포착하지 못하는 경우가 많습니다. 본 논문에서는 포켓몬 카드 게임 (Pokémon Trading Card Game, PTCG)을 기반으로 구축된 벤치마크인 PTCG-Bench를 제시하며, 이는 두 가지 상호 보완적인 수준에서 LLM 에이전트를 평가합니다: (1) 단일 복잡한 환경 내에서의 의사결정 성능, 그리고 (2) 축적된 경험을 통한 자기 진화 (self-evolving) 능력입니다. 나아가, 에이전트의 성능을 모델의 능력(model capability)과 혼동하지 않고 더 잘 해석하기 위해 모듈형 하네스 절제 연구 (modular harness ablation)를 포함했습니다. 실험 결과, LLM 에이전트가 무시할 수 없는 수준의 게임 플레이 성능을 달성할 수는 있지만, 지속적이고 안정적인 자기 진화는 여전히 도전적인 과제로 남아 있으며, 성능은 하네스 설계 (harness design)에 민감하게 반응함을 보여줍니다. 우리는 PTCG-Bench가 현실적인 상호작용 환경에서 하네스 인지적 (harness-aware) 및 자기 진화형 에이전트에 대한 향후 연구를 촉진하기를 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기