본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 12:50

Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment

요약

본 논문은 LLM 기반 에이전트 시스템을 결제 워크플로우에 적용할 때, 기존의 작업 성공률(TSR)이나 핸드오프 점수로는 포착할 수 없는 '워크플로우 충실도'를 측정하는 새로운 지표인 에이전트 성공률(ASR)을 제안합니다. ASR은 관찰된 에이전트 실행 시퀀스와 예상되는 시퀀스를 전환 수준에서 비교하여 경로의 정확성을 평가합니다. HMASP 테스트 결과, 일부 고성능 모델들이 실제 결제 과정 중 필수 체크포인트를 건너뛰는 '숨겨진 워크플로우 단축' 문제를 ASR을 통해 발견할 수 있었으며, 이는 규제 준수 및 신뢰성이 중요한 도메인에서 경로 수준의 평가가 필수적임을 시사합니다.

핵심 포인트

  • 기존 LLM 에이전트 성능 지표(TSR, HF1)는 최종 결과만 측정하여 워크플로우의 세부적인 오류를 놓칠 수 있다.
  • 새롭게 제안된 '에이전트 성공률(ASR)'은 에이전트 실행 시퀀스를 전환 수준에서 비교하여 경로 충실도를 정밀하게 측정한다.
  • 테스트 사례에서, 일부 고성능 모델들이 결제 체크포인트를 체계적으로 건너뛰는 문제를 ASR을 통해 발견했다.
  • ASR 진단을 기반으로 한 프롬프트 개선 및 라우팅 가드는 실제 TSR 성능 향상에 매우 효과적이다 (최대 +93.8%p).
  • 규제 준수나 복잡한 절차가 중요한 도메인에서는 경로 수준의 평가(Path-level evaluation)가 필수적이다.

LLM 기반 다중 에이전트 시스템은 결제 워크플로우에 점점 더 많이 배포되고 있으나, 기존 지표인 작업 성공률 (Task Success Rate, TSR) 과 에이전트 핸드오프 F1 점수 (Agent Handoff F1-Score, HF1) 는 최종 결과나 순서 없는 라우팅 결정만 포착합니다. 우리는 관찰된 에이전트 실행 시퀀스와 예상된 에이전트 실행 시퀀스를 전환 수준에서 비교하여 성능을 전환 회상 (Transition Recall) 과 전환 정밀도 (Transition Precision) 로 분해하는 경로 충실도 지표인 에이전트 성공률 (Agentic Success Rate, ASR) 을 소개합니다. HMASP(Hierarchical Multi-Agent System for Payments) 에 18 개의 LLM 과 90,000 개의 작업 인스턴스를 적용한 결과, ASR 는 18 개 모델 중 10 개가 결제 체크아웃 동안 확인 체크포인트를 체계적으로 건너뛰는 것을 드러냈으며, 이는 TSR 와 HF1 에 의해 보이지 않는 편차입니다. 반면 8 개 모델은 체크포인트를 완벽하게 강제합니다. 특히 GPT-4.1 은 완벽한 TSR 와 HF1 을 달성함에도 불구하고 숨겨진 워크플로우 단축을 보였으며, GPT-5.2 는 완벽한 ASR 을 달성했습니다. ASR 진단에 의해 유도된 프롬프트 정제와 결정론적 라우팅 가드는 실질적인 TSR 개선 효과를 보여주며, 기존에 어려움을 겪던 모델의 경우 최대 +93.8 퍼센트 포인트의 향상을 보였습니다. 이는 규제된 도메인에서 경로 수준의 평가가 필수적임을 증명합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0