본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:14

모든 전환이 순응은 아니다: 멀티 에이전트 LLM 토론에서의 입장 수렴 분해

요약

멀티 에이전트 토론(MAD)에서 발생하는 답변 변화가 진정한 추론인지 사회적 순응인지 분석한 연구입니다. 세 가지 소스 분해 프레임워크를 통해 자발적 불안정성, 입장 유도형 순응, 추론 유도형 설득을 구분하여 제시합니다.

핵심 포인트

  • 답변 전환의 세 가지 메커니즘(불안정성, 순응, 설득) 분해
  • 에이전트 답변 변화의 37%는 자기 성찰에 의한 것임
  • 해로운 순응은 정답에서 오답으로 변하는 경향이 높음
  • 위험 타겟팅 개입을 통해 해로운 순응을 13.6%p 감소 가능

멀티 에이전트 토론 (Multi-agent debate, MAD)은 LLM (Large Language Model) 추론을 향상시키기 위한 유망한 전략이지만, 에이전트들이 공유된 답변으로 수렴할 때 이러한 수렴이 진정한 숙의 (deliberation)를 반영하는지 아니면 사회적 순응 (social compliance)을 반영하는지는 불분명합니다. 본 연구에서는 기존의 답변 전환율 (answer flip rate)이 세 가지 별개의 메커니즘, 즉 자발적 불안정성 (spontaneous instability), 입장 유도형 순응 (stance-induced conformity), 그리고 추론 유도형 설득 (reasoning-induced persuasion)을 혼동하고 있음을 보여줍니다. 우리의 세 가지 소스 분해 프레임워크 (three-source decomposition framework)는 통제된 반사실적 조건 (counterfactual conditions)을 통해 각 메커니즘을 분리합니다. 주요 MMLU-Pro 설정에서, 에이전트-질문 관찰값의 37%가 자기 성찰 (self-reflection)만으로 변화하는 반면, 강건성 테스트 (robustness tests)는 GPQA-Diamond 및 세 가지 모델 제품군 전반에 걸쳐 상당한 모델 의존적 불안정성을 보여줍니다. 엄격한 순응 (strict conformity)은 주요 설정에서 29%이며, 모델 복제 전반에 걸쳐 주로 해로운 상태로 유지됩니다 (정답에서 오답으로 57-77%). 통제된 정보 기울기 (information-gradient) 실험에 따르면, 공허한 추론 (vacuous reasoning)조차 저항하는 에이전트들 사이에서 20-39%의 오류 채택 (error adoption)과 관련이 있으며, 추론과 유사한 제시 방식은 상당한 설득력을 가집니다. 해로운 순응은 라운드 0 (Round 0)의 특징으로부터 예측 가능하며 (AUC = 0.79), 위험 타겟팅 개입 (risk-targeted intervention)은 이를 13.6 퍼센트 포인트 감소시킵니다 (p < 0.001). 그러나 정답 레이블 (correctness labels)이나 자기 성찰 통제 없이는 동료 채택 (peer adoption)을 줄이는 것이 정확도를 향상시키지 못하는데, 이는 해로운 영향과 유익한 영향을 구분할 수 없기 때문입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0