SAFARI: 능동적 조사를 통한 장기적 에이전트 결함 원인 분석의 확장
요약
SAFARI는 자율 에이전트의 긴 실행 궤적에서 발생하는 결함 원인을 분석하기 위한 새로운 프레임워크입니다. 도구 증강형 진단 루프와 단기 기억을 활용하여 컨텍스트 창의 제한을 극복하고 진단 정확도를 높였습니다.
핵심 포인트
- 도구 증강형 진단 루프를 통해 컨텍스트 제한 문제 해결
- LLM이 궤적 세그먼트를 검색할 수 있는 특화된 도구 상자 제공
- Who&When 데이터셋에서 SOTA 대비 20% 성능 향상
- 기존 방식이 실패하는 장기 컨텍스트 상황에서도 높은 정밀도 유지
자율 에이전트(autonomous agents)가 점점 더 복잡한 다단계, 다중 에이전트(multi-agent) 작업을 수행함에 따라, 이들의 실행 궤적(execution trajectories)은 가장 큰 컨텍스트 창(context windows)의 제약을 넘어 확장되었습니다. 에이전트의 실패를 효과적으로 진단하기 위한 현재의 방법들은 전체 궤적을 LLM의 컨텍스트 창에 로드하는데, 이는 주의력 희석(attention dilution) 문제를 겪으며 에이전트의 흔적(agentic traces)이 필연적으로 컨텍스트 제한을 초과할 경우 실패하게 됩니다. 이를 해결하기 위해, 우리는 선형적인 컨텍스트 로딩을 도구 증강형 진단 루프(tool-augmented diagnostic loop)로 대체하는 프레임워크인 SAFARI (Scaling long-horizon Agentic Fault AttRibution via active Investigation)를 소개합니다. LLM에 궤적 세그먼트를 읽고 검색할 수 있는 특화된 도구 상자(toolbox)와 교차 턴 추론(cross-turn reasoning)을 위한 지속적인 단기 기억(Short-Term Memory (STM))을 갖춤으로써, SAFARI는 진단 정확도를 아키텍처의 컨텍스트 제한으로부터 효과적으로 분리합니다. 우리의 실험 결과, SAFARI는 1M 토큰 예산 내에서 Who&When 데이터셋에 대해 최신 기술(state-of-the-art) 대비 20% 우수한 성능을 보였으며, 25K 토큰 예산 내에서 TRAIL GAIA 서브셋에 대해 19% 우수한 성능을 보였습니다. 가장 유의미한 점은, SAFARI가 대상 결함이 모델의 기본 컨텍스트 창보다 5배 더 멀리 있는 상황에서도 0.58의 정밀도(precision)를 유지한다는 것이며, 이는 기존의 평가 도구들이 완전히 실패하는 시나리오입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기