FOCUS: 시각적 지원 제약 조건 및 정책 최적화를 통한 인컨텍스트 객체 로컬라이제이션 강제화
요약
본 논문은 시각-언어 모델(VLM)의 인컨텍스트 로컬라이제이션 성능을 높이기 위한 2단계 학습 프레임워크를 제안합니다. 카테고리 감독 없이 어텐션 최적화와 GRPO 강화학습을 통해 시각적 대응을 강화하여, 모델 규모를 뛰어넘는 정교한 객체 탐지 성능을 입증했습니다.
핵심 포인트
- 카테고리 감독 없이 시각적 증거에 기반한 로컬라이제이션 구현
- GRPO 강화학습을 통한 로컬라이제이션 오차 최소화 및 정교화
- 7B 모델이 72B 모델보다 뛰어난 성능을 보이는 효율성 입증
- 의미론적 편향을 줄이고 시각적 대응(Visual Correspondence) 강제
인컨텍스트 로컬라이제이션 (In-context localization, ICL)은 별도의 학습이나 파라미터 업데이트 없이, 소수의 지원 예시 (support examples) 세트에 의해 지정된 대상 객체를 쿼리 이미지 (query image) 내에서 찾아내는 것을 목표로 합니다. 시각-언어 모델 (Vision-Language Models, VLMs)의 급격한 발전에도 불구하고, 이미지 편집, 개인화된 시각 검색 및 검색과 같은 응용 분야에 필수적인 카테고리 불가지론적 (category-agnostic)이고 시각적으로 근거가 있는 (visually grounded) ICL을 달성하는 것은 여전히 미해결 과제로 남아 있습니다. 기존 방법들은 취약하며 명시적인 카테고리 감독 (category supervision)에 의존하는데, 이는 이름이 없거나 특정 인스턴스에 국한된 객체가 존재하는 실제 환경에서의 적용성을 제한할 뿐만 아니라, 예측을 시각적 증거보다는 의미론적 사전 지식 (semantic priors) 쪽으로 유도하는 카테고리 편향 (category bias)을 초래합니다. 본 논문에서는 카테고리 감독 없이 지원 경계 상자 (support bounding boxes)와 쿼리 이미지 사이의 인컨텍스트 어텐션 (in-context attention)을 명시적으로 최적화하는 2단계 학습 프레임워크를 소개합니다. 나아가, 로컬라이제이션 오차를 직접적으로 최소화하기 위해 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO)를 이용한 강화학습 (Reinforcement Learning, RL)을 통해 로컬라이제이션을 정교화합니다. 이러한 정식화는 의미론적 사전 지식보다 시각적 대응 (visual correspondence)을 강제하여, 견고한 인스턴스 수준의 로컬라이제이션을 생성합니다. 실증적으로, 본 연구의 목적 함수로 학습된 7B 파라미터 모델은 최대 72B 파라미터 모델보다 뛰어난 성능을 보였으며, 이는 컨텍스트 인식 로컬라이제이션 목적 함수가 단순한 모델 규모 확장 (scaling)을 능가할 수 있음을 입증합니다. 종합적인 어블레이션 (ablation) 연구를 통해 각 구성 요소의 기여도를 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기