AgenticSTS: 장기적 관점의 LLM 에이전트를 위한 제한된 메모리 테스트베드
요약
장기적 관점의 LLM 에이전트를 위해 유형화된 검색 기반의 제한된 메모리 계약(bounded contract)을 제안합니다. Slay the Spire 2 게임을 활용한 벤치마크를 통해 메모리 레이어가 에이전트의 전략적 결정에 미치는 영향을 검증하고 재현 가능한 테스트베드를 공개합니다.
핵심 포인트
- 모든 기록을 덧붙이는 대신 유형화된 검색을 통한 새로운 메시지 조립 방식 도입
- 프롬프트 길이를 제한하여 단일 메모리 구성 요소의 독립적 효과 분석 가능
- Slay the Spire 2를 활용한 장기적 의사결정 능력 평가 벤치마크 구축
- 전략적 기술 레이어 추가 시 에이전트의 승률 향상 확인
- 연구 재현을 위한 298개의 궤적 및 분석 스크립트 공개
장기적 관점(long-horizon)의 LLM 에이전트를 위한 메모리는 각 미래의 결정이 무엇을 볼 수 있는지에 대한 계약입니다. 가장 단순한 계약 방식은 모든 프롬프트에 과거의 관찰(observations), 도구 호출(tool calls), 그리고 성찰(reflections)을 덧붙이는 것이며, 이는 이전 컨텍스트에 쉽게 접근할 수 있게 해주지만 동시에 단일 메모리 구성 요소의 효과를 분리하기 어렵게 만드는 뒤섞인 혼합물로 만들어 버립니다. 우리는 대안적인 제한된 계약(bounded contract)을 도입하고 구현합니다. 즉, 모든 결정은 결정 간의 가공되지 않은 대화 기록(cross-decision transcript)을 덧붙이지 않고, 유형화된 검색(typed retrieval)에 의해 조립된 새로운 사용자 메시지로부터 이루어집니다. 따라서 프롬프트는 어떤 길이의 실행에서도 제한된 상태를 유지하며, 어떤 단일 레이어도 독립적으로 제거(ablated)될 수 있습니다. 우리는 수백 번의 전술적 및 전략적 결정이 필요한 폐쇄 규칙 확률론적 덱 빌딩 게임인 Slay the Spire 2에서 이 계약을 구체화합니다. 동일한 게임에 대한 최첨단(frontier) LLM들의 공개 온라인 벤치마크는 5가지 구성에서 가장 낮은 난이도임에도 승률 0%를 기록한 반면, 개발자가 보고한 동일 난이도의 인간 승률은 16%입니다. 즉, 이 과제는 어렵지만 아직 포화 상태는 아닙니다. 우리의 하네스(harness) 내에서 수행된 fixed-A0 제거 실험(ablation)은 트리거된 전략적 기술(strategic skills)이 활성화되었을 때 가장 큰 차이를 보여주었습니다. 저장하지 않는(no-store) 베이스라인은 10게임 중 3번 승리했고, 기술 레이어를 추가했을 때는 10게임 중 6번 승리했습니다. 이 표본 크기에서 비교는 통계적으로 결정적이라기보다는 방향성을 나타냅니다 (Fisher exact p≈0.37). 교차 백본 조사(cross-backbone probe) 및 공개적인 누적 컨텍스트(accumulating-context) 베이스라인은 계약 변수 자체에 대한 통제된 테스트라기보다는 운영상의 비교로서 보고되었습니다. 우리는 재현 가능한 테스트베드를 공개합니다: 조건 태그가 포함된 298개의 완료된 궤적(trajectories), 고정된 메모리/기술 스냅샷, 프롬프트 기록, 그리고 분석 스크립트가 포함되어 있습니다. 이는 명시적인 메모리 레이어가 장기적 관점의 LLM 에이전트 결정에 어떻게 영향을 미치는지 연구하기 위한 에이전트 설계이자 검증된 재사용 가능한 방법론입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기