본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 13:13

MM-StanceDet: 검색 강화 다중 모달 다중 에이전트 태도 감지

요약

MM-StanceDet는 텍스트와 이미지가 상충되는 신호를 포함하는 복잡한 공론장 상황에서 태도 감지(MSD)의 어려움을 해결하기 위해 제안된 새로운 프레임워크입니다. 이 방법은 검색 강화(Retrieval Augmentation), 전문화된 다중 모달 분석 에이전트, 추론 기반 토론 단계, 그리고 자기 성찰을 통합한 다중 에이전트 아키텍처를 특징으로 합니다. 실험 결과에 따르면 MM-StanceDet는 기존의 한계를 극복하고 복잡한 태도 감지 문제에서 최신 성능을 달성했습니다.

핵심 포인트

  • MM-StanceDet는 검색 강화(Retrieval Augmentation)를 통해 문맥 기반 정렬 문제를 해결합니다.
  • 전문화된 다중 모달 분석 에이전트와 추론 강화 토론 단계를 통합하여 해석의 깊이를 높였습니다.
  • 자기 성찰(Self-Reflection) 메커니즘을 도입하여 최종 판단(adjudication)의 견고성을 확보했습니다.
  • 다섯 개의 데이터셋에 걸친 실험에서 기존 SOTA 기준선을 크게 능가하는 성능을 입증했습니다.

다중 모달 태도 감지 (Multimodal Stance Detection, MSD) 는 공론장을 이해하는 데 필수적이지만, 특히 상충되는 신호가 있는 경우 텍스트와 이미지를 효과적으로 융합하는 것은 여전히 어려운 과제입니다. 기존 방법들은 문맥 기반 정렬 (contextual grounding), 교차 모달 해석의 모호성, 그리고 단회 추론의 취약점과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 우리는 검색 강화 다중 모달 다중 에이전트 태도 감지 (Retrieval-Augmented Multi-modal Multi-agent Stance Detection, MM-StanceDet) 를 제안합니다. 이는 문맥 기반 정렬을 위한 검색 강화 (Retrieval Augmentation), 세밀한 해석을 위한 전문화된 다중 모달 분석 에이전트 (specialized Multimodal Analysis agents), 관점 탐색을 위한 추론 강화 토론 단계 (Reasoning-Enhanced Debate stage), 그리고 견고한 심판 (adjudication) 을 위한 자기 성찰 (Self-Reflection) 을 통합한 새로운 다중 에이전트 프레임워크입니다. 다섯 개의 데이터셋에 대한 광범위한 실험 결과, MM-StanceDet 는 상태-of-the-art 기준선 (state-of-the-art baselines) 을 현저히 능가하여, 복잡한 다중 모달 태도 문제를 해결하는 데 있어 그 다중 에이전트 아키텍처와 구조화된 추론 단계의 효과성을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0