혼자서는 안전하지만 함께라면 위험하다: 양호한 이미지들이 결합될 때 발생하는 암시적 유해성(Implicit Toxicity)에 대한 방어
요약
개별적으로는 무해한 이미지들이 결합될 때 발생하는 '멀티 이미지 암시적 유해성(MIIT)' 문제를 정의하고 이를 탐지하는 연구를 다룹니다. 새로운 데이터셋인 MIIT-dataset을 구축하고, 추론 감독을 통해 학습된 MiShield-8B 모델이 기존 모델보다 뛰어난 탐지 성능을 보임을 입증했습니다.
핵심 포인트
- 멀티 이미지 결합 시 발생하는 암시적 유해성(MIIT) 정의
- 7가지 위험 카테고리를 포함한 MIIT-dataset 구축
- 추론 감독 기반의 MiShield-8B 모델 제안
- 기존 상용 모더레이션 API 및 대형 모델 대비 우수한 성능
멀티 이미지(Multi-image) 콘텐츠는 소셜 미디어에서 점점 더 보편적인 시각적 소통 형태가 되었으며, 이는 새로운 안전 문제인 멀티 이미지 암시적 유해성(Multi-image Implicit Toxicity, MIIT)을 야기하고 있습니다. MIIT는 각 이미지가 개별적으로는 양호해 보이지만, 이미지들이 결합되어 해석될 때 해로운 의미가 나타나는 현상을 말합니다. MIIT는 각 이미지에 명시적인 위험 신호가 부족하기 때문에 기존의 상용 모더레이션(Moderation) API 및 모델들에게 특히 까다로운 과제입니다. 본 논문은 MIIT를 식별하는 방법을 연구하는 것을 목표로 합니다. 우리는 먼저 MIIT에 대한 공식적인 정의를 제공하고, 이를 탐지하는 데 있어 세 가지 주요 과제를 분석합니다. 이 분야의 데이터 부족 문제를 완화하기 위해, 우리는 자동 생성 파이프라인을 통해 7가지 대표적인 위험 카테고리를 다루는 이미지 전용 멀티 이미지 안전 데이터셋인 MIIT-dataset을 구축합니다. 마지막으로, 우리는 점진적으로 증류된 추론 감독(Progressively distilled reasoning supervision)을 통해 MiShield를 학습시켜, 위험을 초래하는 상관된 엔티티(Entities)들에 대한 명시적인 분석과 함께 안전 판단을 내릴 수 있도록 합니다. 실험 결과, MiShield-8B 모델은 대표적인 모더레이션 서비스와 심지어 더 큰 규모의 모델들보다 뛰어난 성능을 보였으며, 이는 널리 사용되는 이러한 시각적 형식에 대한 MiShield의 효과와 실질적인 가치를 입증합니다. 경고: 이 논문은 잠재적으로 민감한 내용을 포함하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기