혼자서는 안전하지만 함께라면 위험하다: 양호한 이미지들이 결합될 때 발생하는 암시적 유해성(Implicit Toxicity)에 대한 방어

멀티 이미지(Multi-image) 콘텐츠는 소셜 미디어에서 점점 더 보편적인 시각적 소통 형태가 되었으며, 이는 새로운 안전 문제인 멀티 이미지 암시적 유해성(Multi-image Implicit Toxicity, MIIT)을 야기하고 있습니다. MIIT는 각 이미지가 개별적으로는 양호해 보이지만, 이미지들이 결합되어 해석될 때 해로운 의미가 나타나는 현상을 말합니다. MIIT는 각 이미지에 명시적인 위험 신호가 부족하기 때문에 기존의 상용 모더레이션(Moderation) API 및 모델들에게 특히 까다로운 과제입니다. 본 논문은 MIIT를 식별하는 방법을 연구하는 것을 목표로 합니다. 우리는 먼저 MIIT에 대한 공식적인 정의를 제공하고, 이를 탐지하는 데 있어 세 가지 주요 과제를 분석합니다. 이 분야의 데이터 부족 문제를 완화하기 위해, 우리는 자동 생성 파이프라인을 통해 7가지 대표적인 위험 카테고리를 다루는 이미지 전용 멀티 이미지 안전 데이터셋인 MIIT-dataset을 구축합니다. 마지막으로, 우리는 점진적으로 증류된 추론 감독(Progressively distilled reasoning supervision)을 통해 MiShield를 학습시켜, 위험을 초래하는 상관된 엔티티(Entities)들에 대한 명시적인 분석과 함께 안전 판단을 내릴 수 있도록 합니다. 실험 결과, MiShield-8B 모델은 대표적인 모더레이션 서비스와 심지어 더 큰 규모의 모델들보다 뛰어난 성능을 보였으며, 이는 널리 사용되는 이러한 시각적 형식에 대한 MiShield의 효과와 실질적인 가치를 입증합니다. 경고: 이 논문은 잠재적으로 민감한 내용을 포함하고 있습니다.

Insights

혼자서는 안전하지만 함께라면 위험하다: 양호한 이미지들이 결합될 때 발생하는 암시적 유해성(Implicit Toxicity)에 대한 방어

요약

핵심 포인트

댓글

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)