ag2ai/Agents_Failure_Attribution

요약

ICML 2025 스포트라이트 논문인 'Which Agent Causes Task Failures and When?'의 구현체로, 멀티 에이전트 시스템의 실패 원인을 자동으로 식별하는 벤치마크입니다. 실패한 에이전트와 결정적 오류 단계를 정밀하게 주석 처리하여 디버깅 자동화와 에이전트 자기 개선을 지원합니다.

핵심 포인트

멀티 에이전트 시스템의 실패 귀인(Failure Attribution) 자동화
수동 디버깅 노력 감소 및 시스템 개발 주기 단축
에이전트 자기 수정 및 RL 보상을 위한 피드백 제공
184개의 정밀 주석이 달린 실패 작업 데이터셋 포함

License • Paper • Dataset • Synced (机器之心) • AIEra (新智元) • QbitAI (量子位) • Discord • Project Page Awesome Failure Attributions

에이전트 궤적(agentic trajectories)에서 발생하는 디버깅 실패를 다루는 최초이자 최고의 벤치마크입니다.

이 저장소는 LLM 기반 멀티 에이전트 시스템(multi-agent systems)에서 자동화된 실패 귀인(automated failure attribution) 작업을 소개하는 ICML 2025 스포트라이트 논문 "Which Agent Causes Task Failures and When?"의 구현을 제공합니다. 실패한 작업이 주어졌을 때, 목표인 실패 귀인(failure attribution)은 실패에 책임이 있는 에이전트와 단계를 자동으로 식별하는 것입니다.

자동화된 실패 귀인은 다음과 같은 몇 가지 주요 장점을 제공합니다:

수동 디버깅 노력 감소: 실패 로그를 검사하고 오류를 추적하는 노동 집약적인 프로세스를 자동화합니다.
시스템 개발 가속화: 결함이 있는 에이전트와 결정적인 실수를 빠르게 식별함으로써 반복 주기(iteration cycle)를 단축합니다.
에이전트 자기 개선을 위한 중간 피드백 제공: 결정적인 오류를 정확히 짚어냄으로써 에이전트 시스템의 자기 수정(self-correction)을 위한 실행 가능한 신호를 제공하거나 강화학습 (RL)에서의 보상(reward)으로 활용될 수 있습니다.

184개의 주석이 달린 실패 작업이 수집되었습니다. 이는 CaptainAgent를 사용하여 구축된 알고리즘 생성 에이전트 시스템 (Algorithm-generated agentic systems) 및 Magnetic-One과 같은 **수동 제작 시스템 (Hand-crafted systems)**으로부터 수집되었습니다.

각 실패에 대한 **세밀한 주석 (Fine-grained annotations)**은 다음을 포함합니다:

실패 책임 에이전트 (누가 실패했는가),
결정적인 오류 단계 (언제 결정적인 오류가 발생했는가),
실패에 대한 자연어 설명.

이 데이터셋은 GAIA 및 AssistantBench의 쿼리를 기반으로 한 광범위하고 현실적인 멀티 에이전트 시나리오를 다룹니다. 이는 복잡한 에이전트 시스템에서 실패의 원인을 자동으로 정확히 찾아내는 것을 목표로 하는 방법론을 개발하고 평가하기 위한 기초 리소스로 활용됩니다. 저희는 이러한 실패 로그를 주석 처리하기 위해 다음 가이드를 따랐습니다. 더 자세한 정보는 논문에서 확인할 수 있습니다.

필수 요구 사항 설치 방법:

pip install -r requirements.txt

코드를 실행하기 전에 해당 코드 섹션에서 AutoFA 방법(--method)을 반드시 지정해야 합니다.

모델 (Models) 지원하는 모델은 다음과 같습니다:

모델 이름 (Model Name)	명령줄 인자 (Command-line Argument)
GPT-4o	`--model gpt-4o`
...

python inference.py --method #METHOD --model #MODEL --is_handcrafted #DATA --directory_path #PATH

여기서:

--method

은 실패 귀인 (failure attribution) 방법을 지정합니다:
all_at_once

: All-at-Once 판단 (All-at-Once judging)
step_by_step

: 단계별 판단 (Step-by-Step judging)
binary_search

: 이진 탐색 판단 (Binary Search judging)

--is_handcrafted

은 데이터셋 유형을 지정합니다:
True

: 수작업으로 제작된 에이전트 시스템 (hand-crafted agentic systems) 사용
False

: 알고리즘으로 생성된 에이전트 시스템 (algorithm-generated agentic systems) 사용

--directory_path

은 데이터셋 경로를 지정합니다:
../Who&When/Hand-Crafted

: 수작업 시스템 경로
../Who&When/Algorithm-Generated

: 알고리즘 생성 시스템 경로

예시:

python inference.py --method step_by_step --model gpt-4o --is_handcrafted False --directory_path ../Who&When/Algorithm-Generated

그 후, 결과를 평가할 수 있습니다. 기본적으로 결과는 outputs 폴더에 저장됩니다.

예시:

python evaluate.py --data_path ../Who\&When/Algorithm-Generated --eval_file outputs/step_by_step_gpt-4o_alg_generated.txt

더 많은 결과는 논문에서 확인할 수 있습니다.

중요 (Important)

이 작업이 유용하다고 판단되시면, 저희의 연구를 인용(citing)해 주시기 바랍니다:

@inproceedings{
zhang2025which,
title={Which Agent Causes Task Failures and When? On Automated Failure Attribution of {LLM} Multi-Agent Systems},
...

AI 자동 생성 콘텐츠

원문 바로가기

ag2ai/Agents_Failure_Attribution

요약

핵심 포인트

댓글