양호한 멀티 에이전트 시스템에서의 오정보 전파
요약
멀티 에이전트 시스템에서 의도적인 오정보 주입이 에이전트 간 상호작용을 통해 어떻게 전파되는지 연구합니다. 오정보가 성능 저하를 유발하지만, 의사 결정 프로토콜에 따라 이를 완화할 수 있음을 보여줍니다.
핵심 포인트
- 오정보는 단일 및 멀티 에이전트 시스템 모두에서 성능을 저하시킴
- 에이전트들은 동료가 도입한 오정보를 그대로 유지하려는 경향이 있음
- 멀티 에이전트 토론은 단일 에이전트 프롬프팅보다 성능 저하를 줄임
- 의사 결정 방식(합의 vs 다수결)에 따라 오정보에 대한 강건성이 달라짐
여러 개의 대규모 언어 모델 (Large Language Model, LLM) 에이전트가 턴 기반 상호작용을 통해 문제를 해결하는 멀티 에이전트 시스템 (Multi-agent systems)은 의료 진단, 법률 분석, 법의학적 의사 결정과 같은 고위험 환경에 점점 더 많이 배치되고 있습니다. 단일 에이전트가 도구 호출 (tool calls) 등으로부터 잘못되었거나 오도하는 문맥을 바탕으로 추론할 경우, 에이전트 간의 상호작용을 통해 오류가 전파될 수 있으므로 신뢰성이 위험에 처할 수 있습니다. 본 연구는 추론 (reasoning), 지식 (knowledge), 정렬 (alignment) 작업 전반에 걸쳐 양호한 단일 에이전트 및 멀티 에이전트 시스템에 의도 기반의 오정보 (misinformation)를 주입함으로써 이러한 위험을 연구합니다. 우리는 오정보가 단일 에이전트의 성능을 저하시킬 수 있으며, 멀티 에이전트 토론 (multi-agent debate) 과정에서도 지속된다는 것을 발견했습니다. 에이전트들은 종종 오정보를 가진 동료에 의해 도입된 답변을 그대로 유지하는 경향을 보입니다. 그럼에도 불구하고, 멀티 에이전트 토론은 단일 에이전트 프롬프팅 (prompting)과 비교했을 때 발생하는 성능 저하를 줄여주며, 특히 대부분의 에이전트가 오정보에 노출되지 않았을 때 더욱 그러합니다. 강건성 (Robustness)은 그룹 구성과 의사 결정 프로토콜 (decision protocol)에 따라 달라집니다. 동료의 압박 하에서는 합의 (Consensus)가 투표 (voting)보다 더 안정적일 수 있는 반면, 다수결 (majorities)은 오정보를 가진 에이전트들을 올바른 답변으로 다시 유도할 수 있는 경우가 많습니다. 우리의 결과는 멀티 에이전트 시스템에서의 오정보 강건성이 기반 모델 (underlying model)뿐만 아니라 에이전트들이 정보를 교환하고 의사 결정을 집계 (aggregate)하는 방식에도 달려 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기