PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors
요약
PrefixGuard는 LLM 에이전트의 긴 도구 사용 작업에서 발생하는 온라인 실패를 감지하기 위한 트레이스-모니터 프레임워크입니다. 이 시스템은 오프라인 StepView 유도 단계를 통해 결정론적 타입 스텝 어댑터를 학습하고, 모니터가 이벤트 추상화 및 프록시 리스크 점수자를 학습하여 실시간으로 에이전트의 잠재적 실패를 경고합니다. 실험 결과에 따르면 PrefixGuard는 다양한 벤치마크에서 높은 AUPRC(Area Under the Precision-Recall Curve) 성능을 보여주며, 기존 방법론 대비 상당한 개선을 입증했습니다.
핵심 포인트
- PrefixGuard는 LLM 에이전트의 복잡하고 긴 도구 사용 작업 중 발생하는 온라인 실패를 감지하는 프레임워크입니다.
- 시스템은 오프라인 StepView 유도 단계를 통해 결정론적 타입 스텝 어댑터를 학습하여 모니터링을 수행합니다.
- PrefixGuard는 WebArena, $\tau^2$-Bench 등 여러 벤치마크에서 기존 대비 평균 +0.137 AUPRC의 성능 향상을 달성했습니다.
- 이 프레임워크는 단순한 경고를 넘어 명시적인 진단까지 제공하여 실제 개입(Intervention)으로 전환될 수 있는 실행 가능한 모니터링 레시피를 제시합니다.
대규모 언어 모델 (LLM) 에이전트는 이제 최종 결과 확인이 개입에 너무 늦게 도착할 수 있는 긴 도구 사용 작업을 실행합니다. 온라인 경고는 이종 트레이스 위에 경량화된 프록시 모니터를 필요로 하지만, 손으로 작성된 이벤트 스키마는 취약하고 배포 시간 LLM 판단은 비용이 많이 듭니다. 우리는 PrefixGuard 를 소개합니다: 오프라인 StepView 유도 단계에 따라的监督监视器 훈련을 포함한 트레이스-모니터 프레임워크입니다. StepView 는 원본 트레이스 샘플에서 결정론적 타입 스텝 어댑터를 유도하고, 모니터는 종단 결과에서 이벤트 추상화와 프록시 리스크 점수자를 학습합니다. WebArena, $τ^2$-Bench, SkillsBench, 그리고 TerminalBench 를 통해, 가장 강력한 PrefixGuard 모니터는 0.900/0.710/0.533/0.557 AUPRC 를 달성합니다. 각 표현에서 가장 강력한 백엔드를 사용하여, 그들은 원본 텍스트 컨트롤에 비해 평균 +0.137 AUPRC 를 개선합니다. LLM 판단자는 동일한 프록시 경고 프로토콜 하에서는 여전히 현저히 더 약합니다. 우리는 또한 점수 기반 정밀도 - 재현율 곡선 (AUPRC) 면적의 관측 가능성 천장을 유도하며, 이는 모니터 오류와 관찰된 프록시에서 증거가 없는 실패를 분리합니다. 유한 상태 감사에 대해, 사후 결정론 유한 자동기 (DFA) 추출은 WebArena 와 $τ^2$-Bench 에서 컴팩트하지만 (29 및 20 개 상태), SkillsBench 와 TerminalBench 에서는 151 과 187 개의 상태로 확장됩니다. 마지막으로, 첫 번째 경고 진단은 강력한 순위가 배포 유틸리티를 의미하지 않는다는 것을 보여줍니다: WebArena 는 잘 순위화되지만 낮은 거짓 경보 알람을 지원하지 못하며, $τ^2$-Bench 와 TerminalBench 는 더 실행 가능한 초기 알람을 유지합니다. 이러한 결과들은 PrefixGuard 를 실행 가능한 프록시 경고가 실행 가능한 개입으로 전환될 때 명시적인 진단이 있는 실제 모니터 합성 레시피로 위치시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기