SPOT-E: Frozen VLM을 위한 시각적 스포트라이트를 이용한 테스트 시간 엔트로피 셰이핑 (Test-Time Entropy
요약
SPOT-E는 Frozen VLM의 증거 판독 능력을 개선하기 위한 테스트 시간 엔트로피 셰이핑 방법론입니다. GRPO 기반의 경량 튜닝을 통해 질문에 최적화된 시각적 스포트라이트를 생성하여 모델의 추론 성능과 강건성을 높입니다.
핵심 포인트
- Frozen VLM의 국소적 시각 증거 판독 문제 해결
- 엔트로피 셰이핑 목적 함수를 통한 정답 불확실성 감소
- GRPO 기반의 인스턴스별 질문 조건부 스포트라이트 생성
- 다양한 VLM 제품군 및 벤치마크에서 일관된 성능 향상
시각-언어 모델 (Vision-language models (VLMs))은 결정적인 시각적 증거가 작고 국소적이며 간과하기 쉽기 때문에, 고차원적 추론이 유지되더라도 증거 판독(evidence readout)에 실패하여 증거 집약적 작업에서 성능이 저하되는 경우가 많습니다. 기존의 추론 시간 시각적 개입 (inference-time visual interventions) 방식은 재학습 없이 그라운딩 (grounding)을 개선할 수 있지만, 대부분 오픈 루프 (open-loop) 방식이며 강조된 증거가 실제로 사용되었는지 확인하는 메커니즘이 부족합니다. 본 연구에서는 정답 구간 예측 엔트로피 (answer-span prediction entropy)를 모델 내부 피드백 신호로 연구하며, 단순한 엔트로피 최소화는 모호할 수 있음을 보여줍니다. 낮은 엔트로피는 증거에 기반한 확신에서 비롯될 수도 있지만, 지름길 붕괴 (shortcut collapse)로 인해 발생할 수도 있기 때문입니다. 이러한 모호성을 해결하기 위해, 우리는 저엔트로피 앵커 (low-entropy anchors)와 기본 고확신 토큰을 유지하면서 정답 불확실성을 줄이는 엔트로피 셰이핑 (entropy-shaping) 목적 함수를 도입합니다. 우리는 이 원리를 SPOT-E에 구현하였으며, 이는 그룹 상대 정책 최적화 (Group Relative Policy Optimization (GRPO))를 기반으로 한 경량 튜닝을 통해 인스턴스별로 최적화되는 질문 조건부 스포트라이트 (question-conditioned spotlights)를 생성하는 플러그 앤 플레이 (plug-and-play) 테스트 시간 방법론입니다. 모든 벤치마크와 다양한 VLM 제품군에 걸쳐 SPOT-E는 일관된 이득을 제공하며 시각적 손상 (visual corruptions) 상황에서도 개선된 강건성 (robustness)을 보여줍니다. 코드는 다음에서 공개적으로 사용할 수 있습니다: https://github.com/YinBo0927/SPOT-E
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기