arXiv논문2026. 06. 29. 11:09

OSOR: 효과 인지형 객체 제거를 위한 단일 단계 확산 인페인팅 (One-Step Diffusion Inpainting)

요약

OSOR은 그림자나 반사 같은 비국소적 효과를 고려하면서도 단 한 단계의 디노이징만으로 객체를 제거하는 효율적인 확산 인페인팅 모델입니다. 불완전한 마스크에 강건하며, 기존 다단계 모델보다 최대 30배 빠른 추론 속도를 제공합니다.

핵심 포인트

단일 단계 확산 학습을 통한 추론 속도 4~30배 향상
점유 가이드 판별기를 통한 정밀한 경계 감독 구현
알파 헤드를 활용하여 부정확한 마스크 문제 해결
SAVP 파이프라인을 통한 대규모 효과 인지형 데이터셋 구축

실제 환경에서의 객체 제거(Object removal)는 두 가지 주요 어려움으로 인해 까다롭습니다. 하나는 그림자나 반사(reflections)와 같이 모델링하기 어려운 대상 객체의 비국소적 효과(non-local effects)이며, 다른 하나는 사용자가 제공하는 마스크(mask)가 부정확하거나 불완전한 경우가 많다는 점입니다. 수십억 개의 파라미터와 수십 단계의 디노이징(denoising) 단계를 거치는 확산 기반 모델(diffusion-based models)은 상당한 계산 비용을 대가로 강력한 제거 성능을 달성하지만, 이는 대화형 애플리케이션 및 에지 디바이스(edge devices)에서의 사용을 제한합니다. 이러한 과제를 해결하기 위해, 우리는 효율적이고 효과를 인지하며 마스크에 강건한(mask-robust) 객체 제거를 동시에 달성하는 OSOR (One-Step Object Removal)를 제안합니다. 구체적으로 OSOR은 다음을 도입합니다: (1) 정밀한 경계 감독(boundary supervision)을 위한 점유 가이드 판별기(occupancy-guided discriminator)로, 안정적인 단일 단계 확산 학습(single-step diffusion training)을 가능하게 합니다; (2) 최소한의 오버헤드로 사전 학습된 확산 모델의 지식을 활용하여 적절한 제거 영역을 예측함으로써 불완전한 마스크를 처리하는 알파 헤드(alpha head); (3) 노이즈가 있는 지시어 기반 트리플렛(instruction-based triplets)을 필터링하여 대규모의 효과 인지형 감독(effect-aware supervision)을 생성하는 의미론적 앵커 검증 파이프라인 (semantic-anchored verification pipeline, SAVP). SAVP를 사용하여 우리는 28만 개의 검증된 제거 쌍을 포함하는 CORNE를 큐레이션하였으며, 더 복잡한 제거 작업에서의 성능을 평가하기 위해 AnimeEraseBench 및 TextEraseBench를 추가로 주석 처리하였습니다. 실험 결과, OSOR은 $4 imes$에서 $30 imes$ 더 빠른 추론(inference) 속도를 달성하면서도 지각적 품질(perceptual quality) 측면에서 강력한 다단계 확산(multi-step diffusion) 베이스라인 모델들을 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

OSOR: 효과 인지형 객체 제거를 위한 단일 단계 확산 인페인팅 (One-Step Diffusion Inpainting)

요약

핵심 포인트

댓글