멀티모달 평가자 선호도 붕괴: 자기 진화형 에이전트에서의 교차 모달 전염 (Multimodal Evaluator Preference
요약
멀티모달 환경에서 AI 에이전트가 자신의 출력을 평가할 때 발생하는 '평가자 선호도 붕괴(EPC)'와 '교차 모달 전염' 현상을 연구했습니다. 특정 전략이 지배적으로 나타나는 편향을 분석하고, 이를 완화하기 위한 자기 평가(Self-evaluation)의 효과를 입증했습니다.
핵심 포인트
- 멀티모달 환경의 EPC는 텍스트 전용 환경보다 3.2배 높게 나타남
- 한 모달리티의 선호도가 다른 모달리티로 전이되는 '교차 모달 전염' 확인
- 교차 모델 평가(GPT-4o 등)가 선호도 전염의 주요 위험 요인임
- 자기 평가(Self-evaluation) 방식은 전염 현상에 대해 높은 면역력을 제공함
AI 에이전트가 피드백 루프 내에서 자신의 출력을 평가하기 위해 언어 모델 (Language Models)을 사용할 때, 체계적인 편향이 발생합니다. 우리는 멀티모달 (Multimodal) 환경에서 평가자 선호도 붕괴 (Evaluator Preference Collapse, EPC)가 극적으로 증폭됨을 보여줍니다. 텍스트 및 시각적 과업 전반에 걸쳐 DeepSeek-chat을 평가하기 위해 GPT-4o를 사용한 결과, 단일 전략 (step_by_step)이 전체 가중치의 48.4%를 차지하는 것을 발견했습니다. 이는 텍스트 전용 자기 평가 (Self-evaluation)에서 관찰된 붕괴보다 3.2배 높은 수치이며, 반면 세 가지 시각 도메인 전략은 합산 가중치가 9.1%에 불과했습니다. 우리는 이어 '교차 모달 전염 (Cross-modal contagion)'이라 명명한 새로운 현상을 입증합니다. 즉, 한 모달리티 (Modality)에서 습득된 평가자 선호도가 다른 모달리티의 전략 선택으로 전이되어 이를 오염시킨다는 것입니다. 4단계 격리 훈련 패러다임을 통해 우리는 전염 계수 (Contagion coefficients)를 측정하고 전략 역전 (Strategy inversion) 현상을 기록했습니다. 전략 역전이란 한 모달리티에 대한 최적 전략이 교차 모달 노출 이후 반전되는 현상을 의미합니다. 4가지 평가자 구성에 대한 Phase 3 통계적 검증 (총 53회의 독립적 반복, 15,592회의 API 호출) 결과 명확한 계층 구조가 드러났습니다: 교차 모델 평가 (GPT-4o, N=8)는 강력하지만 대칭적인 양방향 전염을 생성하며 (평균 gamma_{T->V}=1.176, gamma_{V->T}=1.089, Delta=-0.088, p=0.575, Cohen's d=0.29), 높은 라운드 수 (DashScope, 50 라운드)는 단일 전략 지배로 인한 붕괴를 유발합니다 (70%가 전염 제로); 그리고 자기 평가 (Self-evaluation)는 거의 완전한 면역력을 제공합니다 — 실행의 97% (N=30, DeepSeek-chat)가 정확히 제로 전염을 나타냈습니다 (평균 gamma=0.033, 95% CI [-0.031, 0.010], p=0.642, d=0.07). 어떤 평가자 조건에서도 통계적으로 유의미한 방향성 비대칭은 나타나지 않았습니다. 우리는 평가자 정체성에 따라 인덱싱된 전염 행렬 (Contagion matrix)을 도입하고, MM-EPC 실험 프레임워크를 공개하며, 교차 모델 평가자 아키텍처 (Cross-model evaluator architecture)가 선호도 전염의 주요 위험 요인임을 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기