arXiv논문2026. 04. 24. 11:42

VARestorer: 단일 단계 변이형 모델로 실시간 이미지 초해상도 구현

요약

최근 주목받는 시각적 자기회귀 모델(VAR)은 이미지 생성에 강력하지만, 이를 실제 이미지 초해상도(Real-ISR) 작업에 적용하는 데 어려움이 있었습니다. 기존 방식의 순차적 예측(iterative prediction)은 전역적인 저화질(LQ) 컨텍스트를 충분히 활용하지 못하고 오류가 누적되어 흐릿하거나 일관성 없는 고화질(HQ) 결과를 초래했습니다. 본 논문에서 제안하는 VARestorer는 사전 학습된 텍스트-이미지 VAR 모델을 단일 단계(one-step) ISR 모델로 변환하는 효율적인 증류 프레임워크입니다. 분포 매칭(

핵심 포인트

VARestorer는 복잡한 반복 예측 과정을 제거하고 단일 단계에서 초해상도 처리를 가능하게 합니다.
피라미드 이미지 컨디셔닝과 교차 스케일 어텐션을 도입하여 양방향 스케일 간 상호작용을 극대화했습니다.
파라미터 효율적 적응자(Parameter-Efficient Adapters)를 사용하여 모델 파라미터의 1.2%만 미세 조정함으로써 높은 효율성을 유지합니다.
DIV2K 데이터셋에서 MUSIQ 점수 72.32, CLIPIQA 점수 0.7669로 최신 성능을 달성했으며, 기존 방식 대비 추론 속도를 10배 가속화했습니다.

최근 시각적 자기회귀 모델(Variational Autoregressive Models, VAR)은 이미지 생성 분야에서 뛰어난 성능을 입증하며 실생활 이미지 초해상도(Real-ISR) 분야로 그 잠재력을 확장하고 있습니다. 그러나 VAR 구조를 ISR 작업에 직접 적용하는 것은 몇 가지 심각한 기술적 난제에 직면합니다.

첫째, 인과적 어텐션(causal attention)으로 제약된 다음 스케일 예측 메커니즘은 전역적인 저화질(LQ) 컨텍스트를 충분히 활용하지 못하여 결과물이 흐릿하거나 일관성이 떨어지는 고화질(HQ) 출력을 낳습니다. 둘째, ISR 작업에서 필수적인 반복적 예측(iterative prediction) 과정은 오류가 누적되는 경향이 있어 전반적인 이미지의 일관성(coherence)을 심각하게 저해합니다.

저희는 이러한 문제들을 해결하기 위해 VARestorer라는 간단하면서도 효과적인 증류(distillation) 프레임워크를 제안합니다. 이 방법은 사전 학습된 텍스트-이미지 VAR 모델을 단일 단계(one-step) ISR 모델로 변환하는 것을 목표로 합니다.

VARestorer의 핵심은 분포 매칭(distribution matching) 기법을 활용하여 반복적인 정제 과정 자체를 제거하는 것입니다. 이를 통해 오류 전파(error propagation) 문제를 근본적으로 해결하고 추론 시간까지 획기적으로 단축할 수 있습니다. 또한, 저희는 **피라미드 이미지 컨디셔닝(pyramid image conditioning)**과 **교차 스케일 어텐션(cross-scale attention)**을 도입했습니다. 이 구조는 양방향의 스케일별 상호작용을 가능하게 하여 입력 이미지 정보를 최대한 활용할 수 있게 합니다. 이는 트랜스포머 모델이 후반부 LQ 토큰을 간과하는 것을 방지합니다.

효율성 측면에서도 VARestorer는 뛰어납니다. 오직 파라미터 효율적 적응자(Parameter-Efficient Adapters)를 통해 전체 모델 파라미터의 1.2%만을 미세 조정함으로써, 원래 VAR 모델이 가진 표현력(expressive power)을 유지하면서도 성능과 효율성을 극대화했습니다.

광범위한 실험 결과에 따르면, VARestorer는 DIV2K 데이터셋에서 MUSIQ 점수 72.32와 CLIPIQA 점수 0.7669를 달성하며 최신(state-of-the-art) 성능을 기록했습니다. 더욱 주목할 만한 점은, 기존의 일반적인 VAR 추론 방식 대비 10배에 달하는 속도 향상을 보여주었다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

VARestorer: 단일 단계 변이형 모델로 실시간 이미지 초해상도 구현

요약

핵심 포인트

댓글