강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)
요약
기존 시각-언어 모델(LVLM)의 자기 성찰 과정에서 발생하는 시각적 근거 부족 문제를 해결하기 위해 새로운 강화학습 프레임워크인 VRRL을 제안합니다. VRRL은 궤적 접두사 마스킹과 경험 재생 버퍼를 통해 모델이 잘못된 예측으로부터 효과적으로 회복하고 시각적 근거에 기반해 수정하도록 학습시킵니다.
핵심 포인트
- VRRL 프레임워크를 통한 시각적 근거 기반 자기 성찰 유도
- 궤적 접두사 마스킹으로 중간 예측 오류 회복 능력 강화
- 경험 재생 버퍼를 활용해 다양한 실패 상태에 대한 학습 노출
- 분포 외(OOD) 이미지 및 시각적 근거 작업에서 성능 향상 입증
대규모 시각-언어 모델 (Large vision-language models)은 텍스트 형태의 사고 사슬 (Chain of Thought, CoT)을 생성함으로써 멀티모달 입력을 추론할 수 있습니다. CoT 추론에서 나타나는 핵심 능력은 자기 성찰 (self-reflection)입니다. 즉, 이전의 결정을 재검토하고 이전의 오류를 수정하는 것입니다. 그러나 기존의 LVLM들은 성찰 과정에서 시각적 입력에 적절히 주의를 기울이지 못하는 경우가 많으며, 이는 특히 분포 외 (out-of-distribution) 이미지에 대해 피드백을 근거 있는 수정 (grounded corrections)으로 변환하는 능력을 제한합니다. 이 문제를 해결하기 위해, 우리는 시각적 근거 기반의 자기 성찰을 유도하도록 명시적으로 설계된 두 가지 구성 요소를 갖춘 새로운 강화학습 (reinforcement learning) 훈련 프레임워크인 VRRL을 제안합니다. 첫째, 우리는 훈련 중에 궤적 접두사 (trajectory prefixes)를 무작위로 마스킹하여, 초기 실수를 방지하는 것보다 잘못된 중간 예측으로부터 회복하는 것을 강조합니다. 둘째, 경험 재생 버퍼 (experience replay buffer)로부터 버퍼링된 롤인 (buffered roll-ins)을 도입하여, 모델이 수정하는 법을 배워야 하는 다양한 실패 상태에 노출시킵니다. 우리는 표와 차트를 포함하는 시각적 근거 (visual grounding) 작업 및 공간 탐색 (spatial navigation) 벤치마크에서 우리의 접근 방식을 평가합니다. 기성 모델 (off-the-shelf models) 및 전통적인 미세 조정 (fine-tuned) 모델은 분포 변화 (distribution shift) 하에서 성능이 크게 저하되는 반면, 우리의 방법은 자기 성찰을 효과적으로 사용함으로써 표준 RL 및 성찰 중심 미세 조정 베이스라인에 비해 평균 분포 외 (out-of-distribution) 정확도를 실질적으로 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기