arXiv논문2026. 06. 16. 12:14

양호한 멀티 에이전트 시스템에서의 오정보 전파

요약

멀티 에이전트 시스템에서 의도적인 오정보 주입이 에이전트 간 상호작용을 통해 어떻게 전파되는지 연구합니다. 오정보가 성능 저하를 유발하지만, 의사 결정 프로토콜에 따라 이를 완화할 수 있음을 보여줍니다.

핵심 포인트

오정보는 단일 및 멀티 에이전트 시스템 모두에서 성능을 저하시킴
에이전트들은 동료가 도입한 오정보를 그대로 유지하려는 경향이 있음
멀티 에이전트 토론은 단일 에이전트 프롬프팅보다 성능 저하를 줄임
의사 결정 방식(합의 vs 다수결)에 따라 오정보에 대한 강건성이 달라짐

여러 개의 대규모 언어 모델 (Large Language Model, LLM) 에이전트가 턴 기반 상호작용을 통해 문제를 해결하는 멀티 에이전트 시스템 (Multi-agent systems)은 의료 진단, 법률 분석, 법의학적 의사 결정과 같은 고위험 환경에 점점 더 많이 배치되고 있습니다. 단일 에이전트가 도구 호출 (tool calls) 등으로부터 잘못되었거나 오도하는 문맥을 바탕으로 추론할 경우, 에이전트 간의 상호작용을 통해 오류가 전파될 수 있으므로 신뢰성이 위험에 처할 수 있습니다. 본 연구는 추론 (reasoning), 지식 (knowledge), 정렬 (alignment) 작업 전반에 걸쳐 양호한 단일 에이전트 및 멀티 에이전트 시스템에 의도 기반의 오정보 (misinformation)를 주입함으로써 이러한 위험을 연구합니다. 우리는 오정보가 단일 에이전트의 성능을 저하시킬 수 있으며, 멀티 에이전트 토론 (multi-agent debate) 과정에서도 지속된다는 것을 발견했습니다. 에이전트들은 종종 오정보를 가진 동료에 의해 도입된 답변을 그대로 유지하는 경향을 보입니다. 그럼에도 불구하고, 멀티 에이전트 토론은 단일 에이전트 프롬프팅 (prompting)과 비교했을 때 발생하는 성능 저하를 줄여주며, 특히 대부분의 에이전트가 오정보에 노출되지 않았을 때 더욱 그러합니다. 강건성 (Robustness)은 그룹 구성과 의사 결정 프로토콜 (decision protocol)에 따라 달라집니다. 동료의 압박 하에서는 합의 (Consensus)가 투표 (voting)보다 더 안정적일 수 있는 반면, 다수결 (majorities)은 오정보를 가진 에이전트들을 올바른 답변으로 다시 유도할 수 있는 경우가 많습니다. 우리의 결과는 멀티 에이전트 시스템에서의 오정보 강건성이 기반 모델 (underlying model)뿐만 아니라 에이전트들이 정보를 교환하고 의사 결정을 집계 (aggregate)하는 방식에도 달려 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

양호한 멀티 에이전트 시스템에서의 오정보 전파

요약

핵심 포인트

댓글