arXiv논문2026. 06. 23. 12:14

자기회귀 시각 모델(Autoregressive Visual Models)을 위한 훈련 불필요(Training-Free) 의미론적 교정

요약

자기회귀 시각 모델(AVM)의 생성 과정에서 발생하는 의미론적 오류를 해결하기 위한 새로운 프레임워크 Gazer를 제안합니다. MLLM의 피드백을 활용하여 추가 훈련 없이도 이미지와 비디오의 생성 품질 및 정렬 성능을 높입니다.

핵심 포인트

AVM의 스케일 분해 과정에서 발생하는 의미론적 오류 문제 해결
훈련 없이 MLLM의 피드백을 샘플링 루프에 통합하는 Gazer 제안
성찰적 진단과 생성 궤적 되감기를 통한 의미론적 교정 수행
이미지 및 비디오 벤치마크에서 구성적 정확도 향상 입증

다음 스케일 예측(next-scale prediction)에 기반한 자기회귀 시각 모델(Autoregressive Visual Models, AVMs)은 이미지 및 비디오 합성을 위한 유망한 패러다임으로 등장했습니다. 그러나 AVM에서 생성 과정을 다양한 입도(granularities)를 가진 이산적인 스케일(discrete scales)로 분해하는 것은 의미론적 오류(semantic errors)를 식별하고 수정하기 어렵게 만들어, 결과적으로 최종 출력의 품질을 저하시킵니다. AVM을 개선하기 위한 이전의 노력들은 훈련 기반(training-based) 방식과 훈련 불필요(training-free) 방식으로 분류할 수 있습니다. AVM 생성 품질을 높이기 위한 훈련 기반의 노력은 상당한 계산 비용이 발생하는 반면, 기존의 훈련 불필요 방식들은 중간 생성 상태(intermediate generation states)를 간과하여 의미론적 오류를 진단하지 못한 채 최종 출력물에 누적되도록 방치합니다. 본 논문에서는 우리는 훈련 불필요 패러다임에 집중하여, 생성 과정 중의 의미론적 교정(in-generation semantic correction)을 위해 멀티모달 거대 언어 모델(Multimodal Large Language Model, MLLM)의 피드백을 AVM 샘플링 루프(sampling loop)에 통합하는 프레임워크인 Gazer를 제안합니다. 구체적으로, Gazer는 협력하는 두 단계로 작동합니다: 성찰적 진단(Reflective Diagnosis) 단계는 중간 상태로부터 의미론적 오류를 진단하며, 의미론적 교정(Semantic Correction) 단계는 생성 궤적(generation trajectory)을 되감아(rewinds) 수정함으로써 타겟 프롬프트(target prompt)와 다시 정렬합니다. 구성적 이미지 및 비디오 벤치마크에 대한 실험을 통해, Gazer가 추가적인 훈련 없이도 여러 AVM에 걸쳐 의미론적 정렬(semantic alignment)과 구성적 정확도(compositional accuracy)를 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기회귀 시각 모델(Autoregressive Visual Models)을 위한 훈련 불필요(Training-Free) 의미론적 교정

요약

핵심 포인트

댓글