의미론과 왜곡의 분리: AI 생성 이미지 품질 평가를 위한 다중 스케일 이중 스트림 시각-언어 정렬
요약
AI 생성 이미지 품질 평가(AIGIQA) 시 의미론과 왜곡을 분리하여 평가하는 MST-CLIPIQA 프레임워크를 제안합니다. 이중 CLIP 인코더를 통해 전역적 의미와 미세한 질감 특징을 동시에 포착하여 기존 모델의 한계를 극복했습니다.
핵심 포인트
- 의미론적 이해와 저수준 지각적 민감도를 분리하는 이중 스트림 구조 제안
- 거친 입도와 미세한 입도의 패치 활용으로 전역/지역 특징 동시 포착
- 게이트 퓨전 및 적응형 교차 스케일 증류 메커니즘 적용
- 5개 벤치마크에서 SOTA 달성 및 효율적인 파라미터 사용
기존의 시각-언어 모델 (VLM) 기반 AI 생성 이미지 품질 평가 (AIGIQA) 방법들은 근본적인 의미론적-왜곡 차원 간의 충돌 문제를 겪고 있습니다. 즉, 의미론적 판별을 위해 최적화된 단일 구조의 표현(monolithic representations)은 구성적 이해(compositional understanding)와 저수준의 지각적 민감도(low-level perceptual sensitivity)를 본질적으로 얽히게 만들어, 미세한 품질 저하를 감지하지 못하게 합니다. 우리는 명시적인 표현 분리(representational decoupling)를 통해 계층적 시각-언어 정렬을 달성하는 다중 스케일 이중 스트림 프레임워크인 MST-CLIPIQA를 소개합니다. 우리의 아키텍처는 상보적인 패치 입도(patch granularities)를 가진 이중 CLIP 인코더를 활용합니다. 거친 입도(coarse-grained) 스트림은 전역적인 의미론적 일관성(global semantic coherence)을 포착하는 반면, 미세한 입도(fine-grained) 스트림은 질감 특징(textural signatures)과 아티팩트 패턴(artifact patterns)을 보존합니다. 정보 병목(information bottleneck)에서 영감을 받은 게이트 퓨전(gated fusion) 메커니즘은 적응형 교차 스케일 증류(adaptive cross-scale distillation)를 수행하며, 생성 프롬프트가 사용 가능한 경우 선택적인 교차 주의(cross-attention)를 통해 프롬프트에 고정된 대응 관계 평가(prompt-anchored correspondence evaluation)를 가능하게 합니다. 5개의 벤치마크에 걸친 광범위한 실험을 통해 새로운 SOTA (state-of-the-art) 결과를 확립하였으며, 품질 측면에서 평균 1.11%의 SRCC 향상과 텍스트-이미지 대응 예측 측면에서 2.35%의 SRCC 향상을 달성하는 동시에, 단 0.8M개의 학습 가능한 파라미터로 효율성을 유지했습니다. 우리의 프로젝트는 https://github.com/YMlinfeng/MST-CLIPIQA 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기