EARS: 대규모 멀티 에이전트 시스템(MAS)에서 신뢰할 수 있는 서브 에이전트 모델링을 위한 설명 가능한 기권 (Explanatory
요약
대규모 멀티 에이전트 시스템(MAS)에서 서브 에이전트의 신뢰성을 높이기 위한 EARS 프레임워크를 제안합니다. 서브 에이전트가 단순히 답변을 거부하는 대신, 실패 원인과 근거를 코디네이터에게 전달하여 시스템의 전체 응답 통과율을 향상시킵니다.
핵심 포인트
- 서브 에이전트의 설명 가능한 기권(Explanatory Abstention) 메커니즘 제안
- 실패 상태를 구조화된 레이블과 근거로 변환하여 코디네이터에게 전달
- LLM-as-a-Judge 앙상블을 활용한 고품질 상호작용 데이터 큐레이션
- 이커머스 환경 테스트 결과, 전체 응답 통과율을 68.5%에서 78.9%로 개선
대규모 기업 환경에서는 코디네이터(coordinator)가 사용자 요청을 경량화된 도메인 특화 서브 에이전트(sub-agents)에게 위임하는 중앙 집중형 멀티 에이전트 시스템 (MAS, Multi-Agent Systems)이 점점 더 많이 채택되고 있습니다. 이러한 아키텍처는 모듈성, 확장성 및 비용 효율성을 향상시키지만, 그 신뢰성은 정확한 라우팅(routing)뿐만 아니라 능력 제약에 맞춰 자신의 응답을 조정(calibrate)하는 서브 에이전트의 능력에도 달려 있습니다. 특히, 더 작은 미세 조정(fine-tuned) 모델로 구축된 서브 에이전트는 이러한 조정(calibration)에 어려움을 겪는 경우가 많으며, 이로 인해 모호하거나, 명시되지 않았거나, 잘못 라우팅되었거나, 지원되지 않는 요청에 대해 과도하게 답변하게 되어 실행 가능한 피드백 대신 환각(hallucinated)된 출력을 생성하게 됩니다.
이러한 문제를 해결하기 위해, 우리는 서브 에이전트의 기권(abstention)을 에이전트 간 통신 프로토콜로 재정의하는 프로덕션 지향적 프레임워크인 EARS (Explanatory Abstention for Reliable Sub-Agent Modeling)를 제안합니다. 즉, 서브 에이전트는 단순히 기권하는 것이 아니라, 코디네이터에게 실행 가능한 실패 상태(failure state)를 노출합니다. EARS는 조정된 LLM-as-a-Judge 모델의 앙상블을 사용하여 인간-에이전트 상호작용 데이터를 큐레이션하며, 서브 에이전트 실패 모드 분류 체계에 따라 구조화된 기권 레이블(abstention labels)과 근거(rationales)를 생성합니다. 이 데이터는 서브 에이전트가 실패 조건을 감지하고, 코디네이터 수준의 명확화, 재라우팅(rerouting) 또는 폴백(fallback)을 위한 근거를 반환하도록 미세 조정(fine-tune)하는 데 사용됩니다. 우리는 기업용 비즈니스 인텔리전스 워크플로우를 지원하는 대규모 프로덕션 이커머스 어시스턴트에서 EARS를 평가합니다. EARS는 전체 응답 통과율을 68.5%에서 78.9%로 향상시켜, 서브 에이전트 측면의 설명 가능한 기권(explanatory abstention)이 MAS의 신뢰성을 향상시킨다는 것을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기