GPT-Image-2에서 생성된 텍스트 풍부 이미지 탐지를 위한 멀티 도메인 벤치마크
요약
GPT-Image-2가 생성한 텍스트 중심 이미지의 진위 여부를 판별하기 위한 새로운 멀티 도메인 벤치마크를 제안합니다. 포스터, 영수증, UI 등 6개 카테고리의 8,602개 이미지를 통해 기존 탐지기들의 성능과 한계를 분석합니다.
핵심 포인트
- 텍스트와 레이아웃이 포함된 이미지 탐지용 벤치마크 구축
- 6개 도메인(포스터, 영수증, UI 등)에 걸친 광범위한 데이터셋
- 기존 탐지기들이 도메인 및 JPEG 압축에 취약함을 입증
- 텍스트 및 레이아웃 인지 기반 탐지 방법론의 필요성 강조
텍스트가 풍부한 이미지(Text-rich images)는 종종 개인정보 보호에 민감하거나, 거래 관련 또는 의사 결정과 관련된 정보를 포함합니다. 최근 멀티모달 이미지 생성 모델(multimodal image generation models)이 사실적인 텍스트 콘텐츠와 구조화된 시각적 디자인을 합성하는 능력이 점점 향상됨에 따라, AI가 생성한 텍스트 풍부 이미지를 탐지하는 것은 디지털 신뢰와 콘텐츠 진위 확인을 위한 중요한 과제가 되었습니다. 그러나 기존의 벤치마크(benchmarks)는 주로 객체 중심(object-centric) 이미지에 집중되어 있으며, 텍스트 의미론(textual semantics)과 레이아웃 구성(layout organization)이 중심이 되는 시나리오에 대한 범위는 제한적입니다. 본 논문에서는 OpenAI의 GPT Image 2에 의해 생성된 텍스트 풍부 이미지를 탐지하기 위한 멀티 도메인 벤치마크를 소개합니다. 이 벤치마크는 상업용 포스터, 인포그래픽(infographics), 학술 포스터, 영수증, 표(tables), 그리고 UI 스크린샷의 6가지 대표적인 카테고리에 걸쳐 8,602개의 이미지를 포함합니다. 이 벤치마크를 사용하여, 우리는 제로샷(zero-shot) 설정에서 5개의 대표적인 AI 생성 이미지 탐지기(detectors)를 평가하고, 이들의 전반적, 카테고리별, 그리고 후처리(post-processing) 강건성(robustness)을 분석합니다. 우리의 결과는 탐지기 성능이 도메인에 따라 크게 달라짐을 보여줍니다. 즉, 일부 카테고리에서 성능이 좋은 방법론이 다른 카테고리에서는 실패하는 경우가 많으며, 가장 강력한 기존 탐지기조차 JPEG 압축(JPEG compression)에 심각한 민감도를 보입니다. 나아가 우리는 멀티모달 시각-언어 모델(multimodal vision-language model)을 통한 탐색적 평가를 수행하여, 구조화된 형식에 대한 해당 모델의 가능성과 한계를 모두 밝혀냈습니다. 이러한 발견은 현대의 AI 생성 이미지에 대해 텍스트 및 레이아웃을 인식하는 탐지 방법론(text- and layout-aware detection methods)이 필요함을 강조합니다. 우리의 데이터셋은 XXX에 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기