arXiv논문2026. 05. 27. 11:33

구조적 커버리지 기준을 통한 에이전트 워크플로우 (Agentic Workflows) 테스트

요약

멀티 에이전트 시스템의 워크플로우가 설계된 대로 실행되는지 검증하기 위한 구조적 커버리지 테스트 접근법을 제안합니다. DSPy를 활용해 워크플로우 명세를 시나리오로 변환하고, 도구 접근 및 위임 경로의 적절성을 평가합니다.

핵심 포인트

엔드 투 엔드 평가의 한계를 극복하는 구조적 테스트 방식 제안
워크플로우를 타입화된 조정 그래프로 표현하여 커버리지 도출
DSPy를 이용한 커버리지 주도 시나리오 생성 및 검증
OpenAI Agents SDK 스타일 워크플로우에서의 유효성 입증

멀티 에이전트 시스템 (Multi-agent systems)은 에이전트, 도구 (tools), 도구 접근 규칙, 제한 사항, 그리고 위임 경로 (delegation paths)와 같이 명시적인 워크플로우 구조를 점점 더 많이 노출하고 있습니다. 기존의 평가 방식은 주로 엔드 투 엔드 (end-to-end) 작업 성공 여부, 벤치마크 점수, 최종 응답 품질, 또는 프롬프트 수준의 점검에 의존하고 있으며, 이는 선언된 조정 구조 (coordination structure)가 실제로 실행되었는지에 대한 증거를 제공하는 데 한계가 있습니다. 이로 인해 테스트 스위트 (test-suite)의 적절성을 평가하거나 도구 접근, 제한 사항, 에이전트 간 위임에서의 구조적 회귀 (structural regressions)를 탐지하는 것이 어렵습니다. 우리는 멀티 에이전트 워크플로우 명세 (workflow specifications)를 위한 구조적 테스트 접근법을 통해 이러한 격차를 해결합니다. 이 접근법은 각 워크플로우를 타입화된 조정 그래프 (typed coordination graph)로 표현하고, 도달 가능한 에이전트, 허용된 도구 엣지 (tool edges), 제한된 도구 엣지, 그리고 위임 엣지 (delegation edges)에 대한 커버리지 의무 (coverage obligations)를 도출하며, DSPy 기반의 시나리오 실현 (scenario realization)을 결합한 커버리지 주도 생성 (coverage-driven generation)을 사용하여 실행 가능한 테스트를 생성합니다. 그래프는 무엇을 커버해야 하는지를 고정하며, DSPy는 이러한 의무 사항들을 자연어 시나리오로 실현하고, 그 증거 (witnesses)를 런타임에 확인합니다. 우리는 OpenAI Agents SDK 스타일의 워크플로우에 대해 이 접근법을 구현하였으며, 49개의 도달 가능한 에이전트, 47개의 도구, 403개의 구조적 의무 사항으로 구성된 10개의 SDK 유도 벤치마크에서 이를 평가했습니다. 생성된 시나리오는 제한된 정교화 예산 (refinement budget) 내에서 75개 중 54개의 허용된 도구 의무 사항과 48개 중 36개의 위임 의무 사항을 입증했습니다. 적대적 제한 도구 기준 (adversarial restricted-tool criterion)은 248개 중 23개의 제한된 호출 위반 (restricted-call violations)을 이끌어내어, 탐색 시 제한 사항이 유지되는 워크플로우와 구체적인 오라우팅 (misrouting) 실패가 발생하는 워크플로우를 구분해 냈습니다. 이러한 결과는 구조적 커버리지가 멀티 에이전트 워크플로우 테스트를 위한 유용한 적절성 계층 (adequacy layer)을 제공함을 보여줍니다. 이는 의미론적 (semantic) 또는 엔드 투 엔드 평가를 대체하는 것이 아니라, 선언된 에이전트, 도구 접근 규칙, 제한 사항, 그리고 위임 경로가 실제로 실행되었는지 여부를 밝혀냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

구조적 커버리지 기준을 통한 에이전트 워크플로우 (Agentic Workflows) 테스트

요약

핵심 포인트

댓글