arXiv논문2026. 06. 01. 12:03

FBHM: 혐오 밈 탐지를 위한 VLM의 기능적 벤치마킹 및 스티어링 (Steering)

요약

VLM의 혐오 밈 탐지 능력을 평가하기 위해 수사적 기능과 대상 커뮤니티를 축으로 한 새로운 벤치마크 FBHM을 제안합니다. 기존 모델들이 데이터셋 휴리스틱에 의존하는 문제를 지적하며, 학습 가능한 스티어링 벡터(LSV)를 통해 성능을 획기적으로 개선하는 방법을 제시합니다.

핵심 포인트

기존 벤치마크의 관찰 중심적 한계와 인과적 평가 부재 지적
25개 수사적 기능과 10개 커뮤니티를 포함한 FBHM 벤치마크 구축
최신 VLM들이 밈 탐지 시 휴리스틱을 악용하는 일반화 격차 확인
초저데이터 환경에서 성능을 높이는 LSV(Steering Vectors) 제안
LSV 적용 시 Macro-F1 기준 약 30포인트 성능 향상

혐오 밈 탐지(Hateful meme detection)는 시각-언어 모델(Vision-Language Models, VLMs)에게 여전히 매우 어려운 과제로 남아 있습니다. 기존의 벤치마크들은 구조적으로 관찰 중심적(observational)이기 때문입니다. 이는 수사적 혐오 메커니즘(rhetorical hate mechanisms)을 대상 커뮤니티의 특징(target community features)과 혼동하게 만들며, 모델의 취약성에 대한 인과적 평가(causal evaluation)를 방해합니다.

이를 해결하기 위해, 우리는 두 개의 직교하는 축(orthogonal axes)을 따라 구축된 기능 기반 혐오 밈(Functionality Based Hateful Memes)의 체계적으로 큐레이션된 벤치마크인 FBHM을 소개합니다. 이 벤치마크는 25개의 별도 수사적 기능(rhetorical functionalities)과 10개의 대상 커뮤니티(target communities)로 구성되어 있으며, 총 5,000개의 밈을 포함합니다.

최신 VLM들을 벤치마킹한 결과, 심각한 일반화 격차(generalization gap)가 드러났습니다. 표준 데이터셋에서 매우 높은 정확도를 보이는 모델들이 FBHM에서는 거의 무작위(near-random) 수준의 성능으로 처참하게 하락했는데, 이는 모델들이 견고한 멀티모달 추론(multimodal reasoning) 대신 데이터셋 특유의 휴리스틱(heuristics)을 악용하고 있음을 증명합니다.

이 격차를 효율적으로 좁히기 위해, 우리는 LSV(learnable steering vectors, 학습 가능한 스티어링 벡터)를 제안합니다. 이는 단 500개의 스티어링 샘플(50개의 고유한 베이스 밈)에 인과적 개입(causal intervention) 목적 함수를 적용하는 초저데이터 환경(ultra-low data regime) 전략입니다. LSV는 소스 도메인(source-domain)의 성능을 저하시키지 않으면서도, 인컨텍스트 학습(In-context learning) 및 PEFT(Parameter-Efficient Fine-Tuning)를 능가하며 FBHM 성능을 Macro-F1 기준 약 30포인트 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

FBHM: 혐오 밈 탐지를 위한 VLM의 기능적 벤치마킹 및 스티어링 (Steering)

요약

핵심 포인트

댓글