AgenticSTS: 장기적 관점의 LLM 에이전트를 위한 제한된 메모리 테스트베드

장기적 관점(long-horizon)의 LLM 에이전트를 위한 메모리는 각 미래의 결정이 무엇을 볼 수 있는지에 대한 계약입니다. 가장 단순한 계약 방식은 모든 프롬프트에 과거의 관찰(observations), 도구 호출(tool calls), 그리고 성찰(reflections)을 덧붙이는 것이며, 이는 이전 컨텍스트에 쉽게 접근할 수 있게 해주지만 동시에 단일 메모리 구성 요소의 효과를 분리하기 어렵게 만드는 뒤섞인 혼합물로 만들어 버립니다. 우리는 대안적인 제한된 계약(bounded contract)을 도입하고 구현합니다. 즉, 모든 결정은 결정 간의 가공되지 않은 대화 기록(cross-decision transcript)을 덧붙이지 않고, 유형화된 검색(typed retrieval)에 의해 조립된 새로운 사용자 메시지로부터 이루어집니다. 따라서 프롬프트는 어떤 길이의 실행에서도 제한된 상태를 유지하며, 어떤 단일 레이어도 독립적으로 제거(ablated)될 수 있습니다. 우리는 수백 번의 전술적 및 전략적 결정이 필요한 폐쇄 규칙 확률론적 덱 빌딩 게임인 Slay the Spire 2에서 이 계약을 구체화합니다. 동일한 게임에 대한 최첨단(frontier) LLM들의 공개 온라인 벤치마크는 5가지 구성에서 가장 낮은 난이도임에도 승률 0%를 기록한 반면, 개발자가 보고한 동일 난이도의 인간 승률은 16%입니다. 즉, 이 과제는 어렵지만 아직 포화 상태는 아닙니다. 우리의 하네스(harness) 내에서 수행된 fixed-A0 제거 실험(ablation)은 트리거된 전략적 기술(strategic skills)이 활성화되었을 때 가장 큰 차이를 보여주었습니다. 저장하지 않는(no-store) 베이스라인은 10게임 중 3번 승리했고, 기술 레이어를 추가했을 때는 10게임 중 6번 승리했습니다. 이 표본 크기에서 비교는 통계적으로 결정적이라기보다는 방향성을 나타냅니다 (Fisher exact p≈0.37). 교차 백본 조사(cross-backbone probe) 및 공개적인 누적 컨텍스트(accumulating-context) 베이스라인은 계약 변수 자체에 대한 통제된 테스트라기보다는 운영상의 비교로서 보고되었습니다. 우리는 재현 가능한 테스트베드를 공개합니다: 조건 태그가 포함된 298개의 완료된 궤적(trajectories), 고정된 메모리/기술 스냅샷, 프롬프트 기록, 그리고 분석 스크립트가 포함되어 있습니다. 이는 명시적인 메모리 레이어가 장기적 관점의 LLM 에이전트 결정에 어떻게 영향을 미치는지 연구하기 위한 에이전트 설계이자 검증된 재사용 가능한 방법론입니다.

Insights

AgenticSTS: 장기적 관점의 LLM 에이전트를 위한 제한된 메모리 테스트베드

요약

핵심 포인트

댓글

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달