arXiv논문2026. 06. 25. 11:05

함수 호출을 넘어: 도구-환경의 비신뢰성 하에서의 도구 사용 에이전트 벤치마킹

요약

도구 환경의 비신뢰성을 고려한 새로운 에이전트 벤치마크 ToolBench-X를 소개합니다. 기존 벤치마크가 신뢰할 수 있는 환경을 가정하는 것과 달리, 이 연구는 다양한 오류 상황에서도 에이전트가 과업을 완수할 수 있는 회복 능력을 평가합니다.

핵심 포인트

비신뢰적 도구 환경을 위한 ToolBench-X 벤치마크 제안
사양 드리프트, 호출 오류 등 5가지 구조화된 위험 유형 주입
단순 함수 호출 정확도를 넘어 과업 완료 능력의 중요성 강조
실험 결과, 신뢰성 있는 환경에서 잘 작동하는 에이전트도 위험 상황에 취약함

대규모 언어 모델(Large language models)은 외부 도구 환경(tool environments)과 상호작용하며 과업을 해결하는 에이전트(agents)로서 점점 더 많이 배치되고 있습니다. 최근의 도구 사용(tool-use) 벤치마크들이 점점 더 복잡한 과업 설정을 다루고 있음에도 불구하고, 이들은 여전히 깨끗하고 안정적이며 신뢰할 수 있는 도구 환경을 주로 가정하고 있어, 도구-환경의 비신뢰성(tool-environment unreliability)에 대한 검토가 충분히 이루어지지 않고 있습니다. 우리는 회복 가능한 신뢰성 위험(recoverable reliability hazards) 하에서의 에이전트를 평가하기 위한 벤치마크인 ToolBench-X를 소개합니다. ToolBench-X는 다양한 도메인에 걸친 실행 가능한 다단계 과업(multi-step tasks)과 순차적(sequential), 병렬적(parallel), 혼합형(mixed) 워크플로우를 포함하며, 각 과업은 자동 평가를 위해 결정론적 도구(deterministic tools) 및 표준 최종 정답(canonical final answer)과 쌍을 이룹니다. 깨끗한 도구 환경에서 시작하여, ToolBench-X는 다섯 가지 구조화된 위험 유형을 주입합니다: 사양 드리프트(Specification Drift), 호출 오류(Invocation Error), 실행 실패(Execution Failure), 출력 드리프트(Output Drift), 그리고 교차 출처 충돌(Cross-source Conflict). 결정적으로, 주입된 각 사례는 재시도(retrying), 폴백(fallback), 검증(verification) 또는 교차 확인(cross-checking)과 같은 최소 하나 이상의 유효한 회복 경로(recovery path)를 통해 해결 가능한 상태로 유지됩니다. 실험 결과 상당한 신뢰성 격차가 드러났습니다: 신뢰할 수 있는 도구에서 잘 작동하는 에이전트들이 회복 가능한 위험 하에서는 자주 실패합니다. 추가 분석에 따르면, 이러한 실패는 도구 사용량이나 추론 예산(inference budget)보다는 제한된 위험 진단(hazard diagnosis)과 비효율적인 회복(ineffective recovery)에 의해 발생합니다. 타겟팅된 회복 힌트(Targeted recovery hints)는 실패한 많은 과업을 복구해내는 반면, 테스트 시간 스케일링(test-time scaling)은 더 제한적인 이득을 가져옵니다. 이러한 결과는 도구 사용 평가가 함수 호출 정확도(function-call accuracy)를 넘어 비신뢰적인 도구 환경에서의 과업 완료(task completion)로 나아가야 함을 시사합니다. 코드와 데이터는 https://github.com/Foreverskyou/ToolBench-X 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

함수 호출을 넘어: 도구-환경의 비신뢰성 하에서의 도구 사용 에이전트 벤치마킹

요약

핵심 포인트

댓글