에이전트를 밀어붙여라: 장기적 관점의 LLM 에이전트에서 정량적 목표 지속성 측정 및 강제화
요약
장기적 관점의 LLM 에이전트가 목표를 끝까지 완수하는지 측정하는 정량적 목표 지속성(QGP) 개념과 PushBench 벤치마크를 제안합니다. 에이전트가 단순히 작업을 수행하는 것을 넘어, 검증된 결과물을 지속적으로 생성하며 목표를 달성하는 능력을 평가합니다.
핵심 포인트
- 정량적 목표 지속성(QGP) 개념 도입
- PushBench를 통한 반복 작업 및 진행 상황 표류 측정
- 상태 추적 및 백로그 추적 컨트롤러의 성능 우위 확인
- 프런티어 모델의 작업량 증가에 따른 성공률 급감 확인
장기적 관점의 언어 에이전트(Long-horizon language agents)는 많은 그럴듯한 로컬 도구 호출(local tool calls)을 수행할 수 있지만, 요청된 횟수가 실제로 완료될 때까지 지속하는 데 실패할 수 있습니다. 우리는 이 격차를 정량적 목표 지속성(Quantitative Goal Persistence, QGP)으로 연구합니다. 즉, 외부 검증기(external verifier)가 충분한 수의 별개 유효 항목을 확인 할 때까지 에이전트가 계속 작업을 수행하는지 여부를 다룹니다. PushBench는 이를 저장소-아티팩트 수집(repository-artifact collection) 및 검증기 기반 작업 단위(verifier-backed work units)를 위한 벤치마크로 전환하여, 반복 작업, 중복 제출, 허위 완료, 그리고 진행 상황 표류(progress drift)가 최종 성공 플래그 뒤에 숨겨지지 않고 직접 측정되도록 합니다. 매칭된 컨트롤러 비교에서, 상태 추적 검색 컨트롤러(state-tracking retrieval controller)는 중복 제출을 제거하면서 69-78%의 성공률에 도달했으며, 백로그 추적 작업 단위 컨트롤러(backlog-tracking work-unit controller)는 표준 컨트롤러 및 완료 게이트 컨트롤러(completion-gated controllers)가 단 하나의 작업 인스턴스도 완료하지 못하는 설정에서 25-50%의 성공률에 도달했습니다. Claude Code (Sonnet 4.6) 및 Codex CLI (gpt-5.4)를 이용한 블랙박스 프런티어 에이전트(Black-box frontier-agent) 평가 결과, 많은 50개 아티팩트 작업은 해결하지만 100개 아티팩트 조건에서는 조건당 9개 중 3개의 성공으로 급감합니다. 이 결과는 정량적 목표가 로컬 작업 역량과는 다른 신뢰성 요구 사항을 강조함을 보여줍니다. 즉, 에이전트는 검증된 진행 상황을 유지해야 하며 요청된 작업이 완료되었을 때만 멈춰야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기