TextQuests: LLM 기반 텍스트 기반 비디오 게임에서 LLM 은 얼마나 뛰어난가?
요약
TextQuests는 25개의 고전한 인포컴 인터랙티브 픽션 게임을 기반으로 구축된 새로운 벤치마크로, LLM 에이전트의 장기적이고 복잡한 추론 능력을 평가합니다. 이 테스트베드는 에이전트가 외부 도구 없이 오랫동안 지속되는 컨텍스트 속에서 다단계 계획을 수립하고 미지의 환경을 탐험하며 학습하는 능력을 요구합니다. 평가는 게임 진행도, 윤리적 행동(해악), 그리고 10만 토큰 이상의 장기 컨텍스트 추론 능력에 초점을 맞추며, LLM이 긴 역사 속에서 발생하는 환각이나 반복적인 오류를 얼마나 잘 관리하는지 측정합니다.
핵심 포인트
- TextQuests는 고전 인터랙티브 픽션 게임을 활용하여 LLM 에이전트의 장기 컨텍스트 추론 능력을 평가하는 새로운 벤치마크입니다.
- 에이전트는 외부 도구 없이 오직 자체 능력만으로 다단계 계획을 수립하고 미지의 환경에서 시행착오를 통해 학습해야 합니다.
- 평가 지표는 게임 목표 달성(Game Progress), 윤리적 행동(Harm), 그리고 광범위한 컨텍스트 유지 및 추론(Long-context Reasoning)에 중점을 둡니다.
- LLM은 긴 컨텍스트 속에서 이전 상호작용을 기억하고 활용하는 데 어려움을 겪으며, 환각이나 반복적인 오류가 발생할 수 있습니다.
- 이러한 평가는 LLM 자체의 근본적인 추론 능력을 직접적으로 측정하여 AI 에이전트 시스템의 핵심 역량을 평가합니다.
자율 에이전트를 평가하는 두 가지 핵심 접근법이 존재합니다: 하나는 도구 사용이나 코딩 능력과 같은 구체적인 기술의 제한된 집합을 사용하는 실제 환경 (real-world environments) 을 활용하거나, 다른 하나는 시뮬레이션된 오픈 월드 환경을 활용하는 것입니다. 후자는 에이전트가 장기적이고 성장하는 컨텍스트에 걸쳐 지속적이고 자기 주도적인 추론을 요구하는 탐험 환경에서 자율적으로 작동할 수 있는 능력을 더 잘 반영하며 평가하기 쉽습니다. 이 방향은 아직 발전 중이지만 Balrog, ARC-AGI 와 같은 벤치마크를 통해 Claude 와 Gemini 와 같은 모델이 포켓몬을 플레이하는 데 대한 시연 등을 통해 성장한 관심을 받고 있습니다. 이러한 새로운 연구 흐름을 바탕으로 우리는 TextQuests 를 소개합니다.
TextQuests 는 25 개의 고전적인 Infocom 인터랙티브 픽션 게임을 기반으로 구축된 벤치마크입니다. 인간 플레이어가 30 시간 이상 소요되고 수백 가지 정밀한 행동을 수행해야 해결할 수 있는 이러한 텍스트 기반 비디오 게임은 에이전트 추론의 도전 과제를 테스트하기 위한 유망한 실험장 (testbed) 을 제공합니다. 에이전트는 다음을 요구합니다:
장기 컨텍스트 추론 (Long-Context Reasoning): 에이전트는 행동과 관찰의 장기적이고 지속적으로 성장하는 역사에 대해 추론하여 다단계 계획을 수립하고 실행해야 하며, 외부 도구의 도움을 없이 자체 능력에만 의존해야 합니다.
탐험을 통한 학습 (Learning through Exploration): 게임은 에이전트가 경험을 통해 학습하도록 요구하며, 미지의 세계를 탐험하면서 자신의 실패를 조사하고 시행착오를 통해 점진적인 개선을 이루어야 합니다.
이러한 게임에서 성공하려면 에이전트는 장시간의 게임 세션에 걸쳐 이해를 구축해야 합니다. 이는 AI 에이전트 시스템의 추론 핵심인 LLM 자체를 더 직접적이고 정확하게 평가할 수 있게 합니다.
각 모델에 대해 우리는 공식 힌트가 있는 경우 (With Clues) 와 없는 경우 (No Clues) 두 가지 다른 평가 실행을 수행합니다. 각 실행은 최대 500 단계까지 실행되며, 에이전트가 게임을 성공적으로 완료하면 조기 종료됩니다. 성장하는 컨텍스트를 처리하기 위해 실행 동안에는 전체 게임 역사가 절단 없이 유지됩니다. 이 장기 컨텍스트 평가는 현대 LLM 추론 프레임워크에 내재된 프롬프트 캐싱 (prompt caching) 덕분에 계산적으로 실현 가능합니다. 우리는 두 가지 주요 평가 지표를 사용합니다:
게임 진행도 (Game Progress). 게임 진행도는 게임을 완료하는 데 필요한 경로상의 필수 목표점인 라벨링 체크포인트 시리즈를 기반으로 계산됩니다.
해악 (Harm). 에이전트의 윤리적 행동을 평가하기 위해, 우리는 특정 게임 내 행동이 어느 정도 해악을 가질 수 있음을 추적하여 해악 (Harm) 을 측정합니다. 이 점수는 모든 게임을 통해 평균화되어 에이전트의 이러한 행동을 수행하는 전반적인 경향을 평가합니다.
장기 컨텍스트 추론 (Long-context Reasoning). 평가 중 컨텍스트 윈도우는 10 만 토큰을 초과할 수 있으며, LLM 은 광범위한 관찰과 힌트 역사에 대해 정밀한 추론과 계획을 수행하여 효과적으로 진행할 수 있어야 합니다. 컨텍스트 길이가 증가함에 따라 현재 모델은 종종 이전 상호작용에 대해 환각 (hallucinate) 하며, 예를 들어 이미 물건을 가져왔다고 믿거나 루프에서 헤매는 등입니다. 또한 Gemini 2.5 Plays Pokémon 와 같은 관찰과 유사하게, 컨텍스트 길이가 길어질수록 LLM 에이전트는 자신의 역사에서 행동을 반복하는 경향이 증가하고 새로운 계획을 종합하는 경향이 줄어듭니다. 이러한 장기 컨텍스트 실패는 공간 추론이 필요한 작업에서 특히 두드러집니다. 예를 들어, __ Wishbringer__ 에서 대부분의 LLM 은 그것을 오르는 후로 내려가는 데 어려움을 겪었습니다. 해결책은 단순히 상승에 사용된 방향의 순서를 역으로 하는 것이었으며, 이는 컨텍스트 역사에 존재하는 정보였지만 정신 지도를 구축하고 활용하는 근본적인 어려움이 있음을 나타냅니다. 마찬가지로 모든 프론티어 LLM 은 Zork I 의 유명한 미로를 헤매는 데 어려움을 겪습니다.
동적 사고 (Dynamic Thinking). 에이전트의 전반적인 효과성은 작업 성공과 운영 효율성으로 정의됩니다. LLM 에이전트에서 효율성은 생성된 출력 또는 추론 토큰의 수와 밀접하게 관련되어 있으며, 이는 매우
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기