본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 13:00

당신이 생각하는 것은 당신이 보는 것: 시각 - 언어적 호기심을 통해 VLM 에이전트의 탐색 유도

요약

본 연구는 VLM(Visual Language Model) 에이전트가 단순히 관측된 정보에 의존하는 것을 넘어, 능동적인 호기심 기반 탐색을 통해 내부 세계 모델을 개선할 수 있는 방법을 제시합니다. 제안된 GLANCE 프레임워크는 에이전트의 언어적 예측과 시각적 현실 간의 불일치를 활용하여 내재적 호기심 신호를 생성하고, 이를 강화 학습(RL) 과정에 통합합니다. 이 접근 방식은 에이전트가 내부 모델이 불확실한 영역을 능동적으로 탐색하도록 유도함으로써, 복잡하거나 희소 보상 환경에서의 일반화 성능을 크게 향상시킵니다.

핵심 포인트

  • VLM 에이전트는 CoT 추론으로 세계 모델링 능력을 갖추었으나, 수동적 추론만으로는 희소 보상 작업에 한계가 있다.
  • 본 연구는 '호기심 기반 탐색'을 통해 VLM의 내부 세계 모델을 능동적으로 도전하고 정교화하는 방법을 제안한다.
  • GLANCE 프레임워크는 언어적 예측과 시각적 현실 간의 불일치를 내재적 호기심 신호로 활용하여 탐색을 유도한다.
  • 이 통합 접근 방식은 에이전트가 내부 모델의 불확실성을 인식하고 해당 영역을 능동적으로 탐색하도록 만듦으로써 성능을 향상시킨다.

부분적으로 관측 가능한 시각 환경에서 최근의 VLM(Visual Language Model) 에이전트는 명시적인 CoT (Chain-of-Thought) 추론을 통해 정책 내에서 세계 모델링 능력을 내부화하여, 행동하기 전에 미래 상황을 정신적으로 시뮬레이션할 수 있게 되었습니다. 그러나 방문한 상태에 대한 수동적 추론에만 의존하는 것은 희소 보상 (sparse-reward) 작업에는 불충분하며, 견고한 일반화를 위해 필요한 '알려진 미지'를 능동적으로 발견하기 위한 인식적 동기를 결여하고 있습니다. 우리는 다음과 같은 질문을 제기합니다: VLM 에이전트가 호기심 기반 탐색 (curiosity-driven exploration) 을 통해 내부 세계 모델을 도전하고 정교화하는 신호를 능동적으로 찾을 수 있을까요? 본 연구에서는 에이전트의 언어적 세계 모델을 진화하는 타겟 네트워크의 안정적인 시각적 표현으로 지향하여 추론과 탐색을 연결하는 통합 프레임워크인 GLANCE 를 제안합니다.至关重要的是, GLANCE 는 언어적 예측과 시각적 현실 사이의 불일치를 강화 학습 (RL) 내의 내재적 호기심 신호로 활용하여 에이전트를 내부 모델이 불확실한 영역을 능동적으로 탐색하도록 유도합니다. 다양한 에이전트 작업에 걸친 광범위한 실험은 GLANCE 의 효과성을 보여주며, '에이전트가 생각하는 것'과 '에이전트가 보는 것'을 일치시키는 것이 복잡한 또는 희소 에이전트 작업을 해결하는 데 핵심임을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0