arXiv논문2026. 06. 12. 15:43

집계된 신뢰도 신호를 사용한 다중 에이전트 프로토콜

요약

본 논문은 다중 에이전트 시스템의 출력에 대한 신뢰도를 생성하고 평가하는 세 가지 새로운 프로토콜을 제안합니다. 기존 연구와 달리, 이 방법들은 원시 신뢰도 신호를 변환한 후 소프트 투표나 베이지안 융합 같은 확률적 방법을 통해 단일 집계된 신뢰도를 만듭니다. 이는 개별 에이전트나 표준 토론 방식보다 높은 판별력과 안정적인 정확도를 보여줍니다.

핵심 포인트

다중 에이전트 시스템의 출력에 대한 통합 신뢰도 생성 프로토콜을 제안함.
원시 신뢰도 신호를 변환하고 소프트 투표 또는 베이지안 융합으로 결합하여 단일 신뢰도를 만듦.
제안된 집계된 신뢰도는 기존 방식보다 높은 판별력(AUARC)과 안정적인 정확도를 보임.
다양한 벤치마크와 작업 유형에서 모델 능력 및 크기 범위를 아우르는 평가를 수행함.

신뢰도는 자연어 처리(NLP)에서 신뢰성, 감독, 그리고 다양한 다운스트림 결정 작업에 사용되지만, 기존 방법 중 어느 것도 다중 에이전트 시스템의 출력에 대한 신뢰도를 생성하거나 평가하지 못합니다. 이전 연구에서는 메시지에 가중치를 부여하거나, 토론을 유발하거나, 개별 에이전트를 보정하기 위해 다중 에이전트 토론(MAD) 내에서 신뢰도를 사용했지만, 이를 시스템 자체에 대한 단일 신뢰도로 통합한 적은 없습니다. 우리는 먼저 원시 신뢰도 신호를 모델 간 비교 가능하게 변환하고, 그 다음 소프트 투표 또는 베이지안 융합(Bayesian fusion)이라고 부르는 확률 융합을 통해 결합하여 최종 답변과 함께 단일 집계된 신뢰도를 생성하는 세 가지 프로토콜을 소개합니다. 이 집계된 신뢰도는 최고의 단일 에이전트나 표준 토론 기준선보다 훨씬 더 판별력이 높으며(AUARC), 정확도(F1-score)는 안정적으로 유지되고 MAD가 모호한 작업에서 겪는 손실을 회복합니다. 우리는 시퀀스 확률과 자체 보고를 분석하고, 매개변수적 및 비매개변수적 보정기들과 함께 두 가지 추정기를 분석하여, 보정이 두 추정기의 F1 점수를 개선하는 반면 AUARC는 이에 덜 의존한다는 것을 발견했습니다. 우리는 다섯 개의 벤치마크와 네 가지 작업 유형에 걸쳐, 모델 능력과 크기의 범위를 아우르는 각 벤치마크당 여섯 쌍의 동종 및 이종 토론 쌍을 평가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

집계된 신뢰도 신호를 사용한 다중 에이전트 프로토콜

요약

핵심 포인트

댓글