강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

대규모 시각-언어 모델 (Large vision-language models)은 텍스트 형태의 사고 사슬 (Chain of Thought, CoT)을 생성함으로써 멀티모달 입력을 추론할 수 있습니다. CoT 추론에서 나타나는 핵심 능력은 자기 성찰 (self-reflection)입니다. 즉, 이전의 결정을 재검토하고 이전의 오류를 수정하는 것입니다. 그러나 기존의 LVLM들은 성찰 과정에서 시각적 입력에 적절히 주의를 기울이지 못하는 경우가 많으며, 이는 특히 분포 외 (out-of-distribution) 이미지에 대해 피드백을 근거 있는 수정 (grounded corrections)으로 변환하는 능력을 제한합니다. 이 문제를 해결하기 위해, 우리는 시각적 근거 기반의 자기 성찰을 유도하도록 명시적으로 설계된 두 가지 구성 요소를 갖춘 새로운 강화학습 (reinforcement learning) 훈련 프레임워크인 VRRL을 제안합니다. 첫째, 우리는 훈련 중에 궤적 접두사 (trajectory prefixes)를 무작위로 마스킹하여, 초기 실수를 방지하는 것보다 잘못된 중간 예측으로부터 회복하는 것을 강조합니다. 둘째, 경험 재생 버퍼 (experience replay buffer)로부터 버퍼링된 롤인 (buffered roll-ins)을 도입하여, 모델이 수정하는 법을 배워야 하는 다양한 실패 상태에 노출시킵니다. 우리는 표와 차트를 포함하는 시각적 근거 (visual grounding) 작업 및 공간 탐색 (spatial navigation) 벤치마크에서 우리의 접근 방식을 평가합니다. 기성 모델 (off-the-shelf models) 및 전통적인 미세 조정 (fine-tuned) 모델은 분포 변화 (distribution shift) 하에서 성능이 크게 저하되는 반면, 우리의 방법은 자기 성찰을 효과적으로 사용함으로써 표준 RL 및 성찰 중심 미세 조정 베이스라인에 비해 평균 분포 외 (out-of-distribution) 정확도를 실질적으로 향상시킵니다.

Insights

강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

요약

핵심 포인트

댓글

에이전트 기반 코드 생성에서 첫 시도 신뢰성을 높이는 것은 도구 접근이 아닌 추론 노력이다: 관찰 연구

무엇을 할지 배우기 전에 움직이는 법부터 배우기: VLA를 위한 태스크 불가지론적 사전 학습 (Task-Agnostic pretraining)

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

무엇을 할지 배우기 전에 움직이는 법부터 배우기: VLA를 위한 태스크 불가지론적 사전 학습 (Task-Agnostic pretraining)

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑