본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 17:38

MemeScouts@LT-EDI 2026: 올바른 질문을 묻기 — 혐오 표현 탐지 위한 프롬프트 기반 약한 감시 (Prompted Weak Supervision)

요약

밈과 같은 복잡하고 문화적인 맥락을 가진 콘텐츠에서 혐오 표현을 탐지하는 것은 매우 어렵습니다. 본 논문은 이러한 어려움을 극복하기 위해, 목표 지향적인 질문에 답하도록 모델을 유도하여 특징을 추출하는 '프롬프트 기반 약한 감시(PWS)' 접근법을 제안합니다. 이 방법은 기존의 단일 VLM 분류 방식보다 우수하며, 특히 중국어와 힌디어 같은 다국어 환경에서 높은 성능 향상을 입증했습니다.

핵심 포인트

  • 밈과 같이 아이러니나 문화적 맥락이 중요한 콘텐츠에서의 혐오 표현 탐지는 기존 모델에 큰 도전 과제입니다.
  • 본 연구는 '프롬프트 기반 약한 감시(Prompted Weak Supervision, PWS)' 접근법을 사용하여 복잡한 다중 모달 혐오 표현 탐지를 수행합니다.
  • PWS는 VLM에게 목표 지향적인 질문에 답하게 하여 특징을 추출함으로써, 직접적인 분류보다 더 강력하고 일반화된 성능을 보여줍니다.
  • 이 방법론은 영어뿐만 아니라 중국어와 힌디어 등 다양한 다국어 환경에서 우수한 성능과 높은 순위를 달성했습니다.

밈 (meme) 의 다중 모달 (multimodal) 성질과 아이러니, 문맥 등 세련되고 문화적 맥락에 기반한 단서로 인해 혐오 표현을 탐지하는 것은 어렵습니다. 최근의 비전-언어 모델 (VLMs) 은 텍스트와 이미지를 동시에 추론할 수 있게 하지만, 엔드투엔드 프롬프팅은 단일 예측이 대상, 입장, 암시성, 아이러니를 모두 해결해야 하므로 취약할 수 있습니다. 이러한 어려움은 다국어 환경에서는 더욱 증폭됩니다. 우리는 LT-EDI 2026 공유 과제에서 동성애 혐오와 트랜스젠더 혐오 탐지를 위해 밈 이해를 목표 지향적이고 질문 기반의 라벨링 함수로 분해하는 프롬프트 기반 약한 감시 (PWS) 접근법을 제안합니다. 양자화된 Qwen3-VLM 을 사용하여 목표 지향적인 질문에 답함으로써 특징을 추출하고, 이 방법은 직접적인 VLM 분류보다 우수하며, 중국어와 힌디어에서 상당한 성능 향상을 보였습니다. 영어에서는 1 위, 중국어에서는 2 위, 힌디어에서는 3 위를 차지했습니다. 오류 기반 라벨링 함수 (LF) 확장 및 특징 가지치기를 통한 반복적 개선은 중복성을 줄이고 일반화 성능을 향상시켰습니다. 우리의 결과는 다중 모달 혐오 표현 탐지에 프롬프트 기반 약한 감시가 효과적임을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0