PROTEA: 멀티 에이전트 LLM 워크플로우를 위한 오프라인 평가 및 반복적 개선
요약
PROTEA는 멀티 에이전트 LLM 워크플로우의 디버깅과 개선을 돕는 통합 인터페이스입니다. 중간 노드의 오류를 국소화하기 위해 역방향 노드 평가 방식을 사용하며, 프롬프트 수정안 제시와 자동 재평가 기능을 통해 워크플로우 성능을 효율적으로 향상시킵니다.
핵심 포인트
- 멀티 에이전트 시스템의 중간 출력 오류 전파 문제를 해결하기 위한 오프라인 평가 프레임워크 제공
- 최종 답변과 그래프 컨텍스트를 기반으로 후보 노드의 기대치를 생성하는 역방향 노드 평가(backward node evaluation) 도입
- 워크플로우 그래프 상에 노드별 상태와 근거를 시각화하여 병목 지점 국소화 지원
- 편집 가능한 전/후 비교 형식의 프롬프트 수정안 제시 및 자동 재실행/재평가 기능
- 실제 워크플로우 적용 시 문서 검사 정확도 및 추천 성능의 유의미한 향상 입증
멀티 에이전트 LLM 워크플로우(Multi-agent LLM workflows) — 역할이 특화된 여러 개의 LLM 호출로 구성된 시스템 — 는 종종 단일 프롬프트(single-prompt) 베이스라인보다 뛰어난 성능을 보이지만, 디버깅(debug)과 개선(refine)이 여전히 어렵습니다. 실패는 중간 출력물(intermediate outputs)의 미세한 오류에서 비롯되어 하위 노드(downstream nodes)로 전파될 수 있으며, 이로 인해 개발자는 긴 추적(traces)을 조사하고 어떤 에이전트를 수정해야 할지 추론해야 합니다. 우리는 멀티 에이전트 워크플로우의 오프라인, 테스트 주도형 개선을 위한 통합 인터페이스인 PROTEA를 제시합니다. PROTEA는 워크플로우를 실행하고, 설정 가능한 루브릭(rubrics)을 사용하여 중간 노드 출력의 점수를 매기며, 워크플로우 그래프(workflow graph) 위에 노드별 상태와 근거(rationales)를 겹쳐 보여줌으로써 발생 가능한 병목 지점(bottlenecks)을 국소화(localize)합니다. 최종 답변 참조(final-answer references)가 주요 감독(supervision) 수단인 복잡한 시스템을 지원하기 위해, PROTEA는 역방향 노드 평가(backward node evaluation)를 수행합니다. 즉, 최종 답변 참조와 그래프 컨텍스트(graph context)로부터 후보 노드 수준의 기대치(expectations)를 생성한 다음, 이를 관찰된 노드 출력과 비교합니다. 선택된 노드에 대해 PROTEA는 편집 가능한 전/후 비교(before/after comparisons) 형식으로 타겟팅된 프롬프트 수정안(prompt revisions)을 제시하며, 이후 워크플로우를 자동으로 재실행 및 재평가하여 동일한 인터페이스 내에서 출력 변화와 점수 궤적(score trajectories)을 보여줍니다. 두 가지 프로덕션 인접 워크플로우(production-adjacent workflows)에서 PROTEA는 문서 검사 정확도를 64.3%에서 83.9%로, 추천 Hit@5를 0.30에서 0.38로 향상시켰습니다. 6명의 숙련된 LLM 개발자를 대상으로 한 형성 연구(formative study)에서, 참가자들은 그래프 수준의 국소화, 노드별 근거, 그리고 편집 가능한 전/후 프롬프트 수정 기능을 높게 평가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기