arXiv논문2026. 05. 07. 17:34

오픈소스 이미지 편집 모델은 제로샷 비전 학습자입니다

요약

본 연구는 세 가지 오픈소스 이미지 편집 모델(Qwen-Image-Edit, FireRed-Image-Edit, LongCat-Image-Edit)을 사용하여 파인튜닝 없이도 제로샷 비전 예측 능력을 체계적으로 평가했습니다. 단안 깊이 추정, 표면 법선 추정, 의미론적 분할 등 다양한 기하학적 및 의미론적 임무에서 이 모델들이 우수한 성능을 보였습니다. 특히 FireRed-Image-Edit는 표면 법선 추정에서 기존 SOTA 모델을 능가했으며, Qwen-Image-Edit와 LongCat-Image-Edit 역시 깊이 추정 및 분할 작업에서 강력한 제로샷 성능을 입증했습니다.

핵심 포인트

오픈소스 이미지 편집 모델들이 별도의 파인튜닝 없이도 뛰어난 제로샷 비전 이해 능력을 갖추고 있음이 확인되었습니다.
FireRed-Image-Edit는 표면 법선 추정에서 기존 최고 성능(SOTA) 모델을 능가하는 결과를 보여주었습니다.
Qwen-Image-Edit와 LongCat-Image-Edit는 깊이 및 의미론적 분할과 같은 복잡한 시각 예측 임무에서 강력한 제로샷 기준선을 제시했습니다.
연구 결과, 이러한 비자극적인(non-stimulus) 제로샷 시각 이해 능력이 이미지 편집 사전 훈련 과정에서 나타나는 '창발 속성(emergent property)'일 가능성을 탐구할 수 있습니다.

최근 연구들은 대규모 생성 모델이 명시적으로 훈련되지 않은 시각적 임무를 해결할 수 있음을 보여주고 있습니다. 그러나 기존 증거는 폐쇄형 모델 (Veo~3, Nano Banana Pro) 을 기반으로 하거나 특정 작업에 대한 인스트럭션 튜닝을 필요로 하여, 공개된 이미지 편집 모델이 아웃 오브 더 박스 (out of the box) 에서 제로샷 비전 능력을 가지고 있는지 여부는 여전히 미지수입니다. 우리는 세 가지 오픈소스 이미지 편집 모델 -- Qwen-Image-Edit, FireRed-Image-Edit, 그리고 LongCat-Image-Edit -- 을 사용하여 밀집 시각 예측 (dense visual prediction) 임무에 대해 아무런 파인튜닝 없이도 체계적인 평가를 수행했습니다. 우리는 단안 깊이 추정 (monocular depth estimation) 을 NYUv2 와 DIODE 에서, 표면 법선 추정 (surface normal estimation) 을 NYUv2 에서, 그리고 의미론적 분할 (semantic segmentation) 을 Cityscapes 에서 벤치마크하여 기하학적 및 의미론적 장면 이해를 모두 포함시켰습니다. 결과는 오픈소스 이미지 편집 모델이 비자극적인 제로샷 시각 이해 능력을 나타낸다는 것을 보여줍니다. NYUv2 표면 법선에서 FireRed-Image-Edit 는 평균 각도 오차 $17.69^ ext{\circ}$ 를 달성하여 파인튜닝된 Marigold ($20.86^ ext{\circ}$) 을 능가하고, 특정 작업 훈련 없이 Vision Banana ($17.78^ ext{\circ}$) 와 일치했습니다. NYUv2 깊이 추정에서 LongCat-Image-Edit 는 아핀 정렬 (affine alignment) 로 $\delta_1{=}0.822$ 를 얻었고, Qwen-Image-Edit 는 DIODE Indoor 에서 $\delta_1{=}0.868$ 을 이끌었습니다. Cityscapes 의미론적 분할에서 Qwen-Image-Edit 는 19 클래스 수준에서 25.7 mIoU, 더 거친 7 카테고리 수준에서 49.5 mIoU 를 달성했습니다. 세 가지 독립적으로 훈련된 편집기를 비교하여 제로샷 비전 능력이 이미지 편집 프리트레이닝의 나타나는 속성 (emergent property) 이인지, 아니면 모델 특유의 현상 (artifact) 인지 여부를 테스트했습니다. 코드, 평가 스크립트 및 모든 결과는 공개되어 향후 작업에 재현 가능한 기준선 (reproducible baseline) 을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오픈소스 이미지 편집 모델은 제로샷 비전 학습자입니다

요약

핵심 포인트

댓글