arXiv논문2026. 06. 16. 22:53

의미론과 왜곡의 분리: AI 생성 이미지 품질 평가를 위한 다중 스케일 이중 스트림 시각-언어 정렬

요약

AI 생성 이미지 품질 평가(AIGIQA) 시 의미론과 왜곡을 분리하여 평가하는 MST-CLIPIQA 프레임워크를 제안합니다. 이중 CLIP 인코더를 통해 전역적 의미와 미세한 질감 특징을 동시에 포착하여 기존 모델의 한계를 극복했습니다.

핵심 포인트

의미론적 이해와 저수준 지각적 민감도를 분리하는 이중 스트림 구조 제안
거친 입도와 미세한 입도의 패치 활용으로 전역/지역 특징 동시 포착
게이트 퓨전 및 적응형 교차 스케일 증류 메커니즘 적용
5개 벤치마크에서 SOTA 달성 및 효율적인 파라미터 사용

기존의 시각-언어 모델 (VLM) 기반 AI 생성 이미지 품질 평가 (AIGIQA) 방법들은 근본적인 의미론적-왜곡 차원 간의 충돌 문제를 겪고 있습니다. 즉, 의미론적 판별을 위해 최적화된 단일 구조의 표현(monolithic representations)은 구성적 이해(compositional understanding)와 저수준의 지각적 민감도(low-level perceptual sensitivity)를 본질적으로 얽히게 만들어, 미세한 품질 저하를 감지하지 못하게 합니다. 우리는 명시적인 표현 분리(representational decoupling)를 통해 계층적 시각-언어 정렬을 달성하는 다중 스케일 이중 스트림 프레임워크인 MST-CLIPIQA를 소개합니다. 우리의 아키텍처는 상보적인 패치 입도(patch granularities)를 가진 이중 CLIP 인코더를 활용합니다. 거친 입도(coarse-grained) 스트림은 전역적인 의미론적 일관성(global semantic coherence)을 포착하는 반면, 미세한 입도(fine-grained) 스트림은 질감 특징(textural signatures)과 아티팩트 패턴(artifact patterns)을 보존합니다. 정보 병목(information bottleneck)에서 영감을 받은 게이트 퓨전(gated fusion) 메커니즘은 적응형 교차 스케일 증류(adaptive cross-scale distillation)를 수행하며, 생성 프롬프트가 사용 가능한 경우 선택적인 교차 주의(cross-attention)를 통해 프롬프트에 고정된 대응 관계 평가(prompt-anchored correspondence evaluation)를 가능하게 합니다. 5개의 벤치마크에 걸친 광범위한 실험을 통해 새로운 SOTA (state-of-the-art) 결과를 확립하였으며, 품질 측면에서 평균 1.11%의 SRCC 향상과 텍스트-이미지 대응 예측 측면에서 2.35%의 SRCC 향상을 달성하는 동시에, 단 0.8M개의 학습 가능한 파라미터로 효율성을 유지했습니다. 우리의 프로젝트는 https://github.com/YMlinfeng/MST-CLIPIQA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

의미론과 왜곡의 분리: AI 생성 이미지 품질 평가를 위한 다중 스케일 이중 스트림 시각-언어 정렬

요약

핵심 포인트

댓글