arXiv논문2026. 05. 27. 12:20

눈이 AI를 배신할 때: AI 생성 이미지 탐지를 위한 의미론적 단서로서의 사회적 시선 일관성

요약

생성 모델의 정교해진 픽셀 조작을 탐지하기 위해 '사회적 시선 일관성'이라는 고수준 의미론적 단서를 제안합니다. 인물 간 시선 방향과 머리-눈 정렬의 일관성을 분석하여 기존 저수준 아티팩트 탐지의 한계를 극복합니다.

핵심 포인트

사회적 시선 일관성(Social Gaze Consistency)이라는 새로운 탐지 축 제안
픽셀 지문 등 저수준 아티팩트 기반 탐지의 한계 극복
FakeVLM 및 시각 전용 백본 모두에서 성능 향상 입증
백본 아키텍처에 무관하게 적용 가능한 범용적 단서

최근의 생성 모델(generative models)은 저수준 아티팩트(low-level artifacts) — 픽셀 지문(pixel fingerprints), 주파수 이상(frequency anomalies), 업샘플링 흔적(upsampling traces) — 의 격차를 크게 줄였습니다. 특히 조작된 영역이 작고 광학적으로 실제와 같은 콘텐츠에 둘러싸인 인물 중심 및 부분 편집(partial-edit) 설정에서 더욱 그러합니다. 우리는 상호작용하는 개인 간의 시선 방향, 머리-눈 정렬(head-eye alignment), 동공 배치(pupil placement)의 상호 일관성으로 정의되는 고수준 의미론적 단서(high-level semantic cue)인 사회적 시선 일관성(Social Gaze Consistency)을 소개하며, 이것이 기존의 저수준 패러다임과 직교하는, 이전에는 충분히 활용되지 않았던 탐지 축을 구성함을 보여줍니다. 우리는 세 가지 결합된 메커니즘을 통해 이 통찰을 구체화합니다: (i) 시선 일관성이 있는 이미지에 영역별 섭동(region-specific perturbations)을 가한 통제된 진단 데이터셋으로, 엄격한 쌍 단위 그룹화(pair-level grouping)를 통해 생성기 지문(generator-fingerprint) 암기가 증강(augmentation)에 의존하는 최적화 시간의 지름길(shortcut)이 되는 것을 차단합니다; (ii) 블록 구성 캡션 감독(Block-Compositional Caption Supervision)으로, 1,250개의 거시 결합된 캡션(macro-combined captions) 전체에 걸쳐 단일 5-블록 추론 골격을 불변하게 유지하여, 추론 일관성을 표면적 다양성(surface diversity)으로부터 분리합니다; (iii) 동일한 감독이 시각-언어 백본(vision-language backbone, FakeVLM)의 성능을 COCOAI Interaction 서브셋에서 +3.7 pp(균형 정확도 67.8 -> 71.5), COCOAI Person 서브셋에서 +1.3 pp(83.0 -> 84.3) 향상시키고, 시각 전용 백본(vision-only backbone, Effort)에서도 일관된 이득을 보여줌으로써 백본에 무관한(backbone-agnostic) 단서임을 입증하는 교차 아키텍처 검증(Cross-architecture validation)을 수행합니다. 실제(real) 클래스와 가짜(fake) 클래스의 재현율(recall)이 동시에 상승하여,

AI 자동 생성 콘텐츠

원문 바로가기

눈이 AI를 배신할 때: AI 생성 이미지 탐지를 위한 의미론적 단서로서의 사회적 시선 일관성

요약

핵심 포인트

댓글