arXiv논문2026. 05. 26. 12:52

DRScaffold: 경량 시각-언어 모델(Vision Language Models)의 밀집 장면 추론(Dense-Scene

요약

경량 시각-언어 모델(VLM)의 밀집 장면 추론 능력을 향상시키기 위한 DRScaffold 프레임워크와 DRBench 벤치마크를 제안합니다. 인과적으로 순서화된 4단계 지도 미세 조정을 통해 모델이 시각적 엔티티와 관계를 정확히 접지하도록 유도합니다.

핵심 포인트

밀집 장면 추론을 위한 새로운 벤치마크 DRBench 도입
구조적 변경 없는 4단계 인과적 지도 미세 조정 프레임워크 제안
Qwen2.5-VL-3B 모델이 더 큰 규모의 모델을 능가하는 성능 입증
구조화된 감독이 모델 규모의 한계를 극복할 수 있음을 증명

경량 시각-언어 모델(Vision Language Models, VLMs)은 표준 벤치마크에서는 경쟁력 있는 성능을 보이지만, 여러 객체, 속성, 관계를 다단계 추론을 통해 공동으로 접지(grounding)하고 해결해야 하는 밀집 장면 추론(dense-scene reasoning)에서는 체계적으로 실패합니다. 이러한 능력은 모델이 복잡한 환경을 신뢰성 있게 해석해야 하는 실제 응용 분야에서 매우 중요합니다. 그러나 기존의 학습 신호는 추론 단계와 근저에 있는 시각적 엔티티(entities) 및 관계 사이의 명시적인 접지(grounding)를 제공하지 않으며, 이로 인해 경량 모델은 유창하지만 시각적으로 고정되지 않은(unanchored) 추론 체인을 생성하게 됩니다. 이러한 격차를 해소하기 위해, 우리는 먼저 3개의 점진적 추론 계층에 걸쳐 5개의 작업 범주로 구성된 2,943개의 이미지와 14,573개의 질문을 포함하는 벤치마크인 DRBench를 도입합니다. DRBench를 기반으로, 우리는 구조적 변경 없이 접지된 추론(grounded reasoning)을 강제하도록 감독 대상을 인과적으로 순서화된 4단계로 분해하는 지도 미세 조정(supervised fine-tuning) 프레임워크인 DRScaffold를 제안합니다. 세 가지 경량 VLM에 대한 실험 결과, 일반 목적의 벤치마크 성능을 유지하거나 향상시키면서 DRBench에서 상당한 이득을 얻음을 입증했습니다. 특히, DRScaffold로 학습된 Qwen2.5-VL-3B는 DRBench에서 동결된(frozen) Qwen2.5-VL-32B를 능가하며, 구조화된 감독(structured supervision)이 밀집 장면 추론에서 모델 규모의 상당 부분을 대체할 수 있음을 보여줍니다. 우리의 코드와 모델은 https://github.com/irene-shi/DRScaffold 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DRScaffold: 경량 시각-언어 모델(Vision Language Models)의 밀집 장면 추론(Dense-Scene

요약

핵심 포인트

댓글