arXiv논문2026. 05. 06. 13:00

당신이 생각하는 것은 당신이 보는 것: 시각 - 언어적 호기심을 통해 VLM 에이전트의 탐색 유도

요약

본 연구는 VLM(Visual Language Model) 에이전트가 단순히 관측된 정보에 의존하는 것을 넘어, 능동적인 호기심 기반 탐색을 통해 내부 세계 모델을 개선할 수 있는 방법을 제시합니다. 제안된 GLANCE 프레임워크는 에이전트의 언어적 예측과 시각적 현실 간의 불일치를 활용하여 내재적 호기심 신호를 생성하고, 이를 강화 학습(RL) 과정에 통합합니다. 이 접근 방식은 에이전트가 내부 모델이 불확실한 영역을 능동적으로 탐색하도록 유도함으로써, 복잡하거나 희소 보상 환경에서의 일반화 성능을 크게 향상시킵니다.

핵심 포인트

VLM 에이전트는 CoT 추론으로 세계 모델링 능력을 갖추었으나, 수동적 추론만으로는 희소 보상 작업에 한계가 있다.
본 연구는 '호기심 기반 탐색'을 통해 VLM의 내부 세계 모델을 능동적으로 도전하고 정교화하는 방법을 제안한다.
GLANCE 프레임워크는 언어적 예측과 시각적 현실 간의 불일치를 내재적 호기심 신호로 활용하여 탐색을 유도한다.
이 통합 접근 방식은 에이전트가 내부 모델의 불확실성을 인식하고 해당 영역을 능동적으로 탐색하도록 만듦으로써 성능을 향상시킨다.

부분적으로 관측 가능한 시각 환경에서 최근의 VLM(Visual Language Model) 에이전트는 명시적인 CoT (Chain-of-Thought) 추론을 통해 정책 내에서 세계 모델링 능력을 내부화하여, 행동하기 전에 미래 상황을 정신적으로 시뮬레이션할 수 있게 되었습니다. 그러나 방문한 상태에 대한 수동적 추론에만 의존하는 것은 희소 보상 (sparse-reward) 작업에는 불충분하며, 견고한 일반화를 위해 필요한 '알려진 미지'를 능동적으로 발견하기 위한 인식적 동기를 결여하고 있습니다. 우리는 다음과 같은 질문을 제기합니다: VLM 에이전트가 호기심 기반 탐색 (curiosity-driven exploration) 을 통해 내부 세계 모델을 도전하고 정교화하는 신호를 능동적으로 찾을 수 있을까요? 본 연구에서는 에이전트의 언어적 세계 모델을 진화하는 타겟 네트워크의 안정적인 시각적 표현으로 지향하여 추론과 탐색을 연결하는 통합 프레임워크인 GLANCE 를 제안합니다.至关重要的是, GLANCE 는 언어적 예측과 시각적 현실 사이의 불일치를 강화 학습 (RL) 내의 내재적 호기심 신호로 활용하여 에이전트를 내부 모델이 불확실한 영역을 능동적으로 탐색하도록 유도합니다. 다양한 에이전트 작업에 걸친 광범위한 실험은 GLANCE 의 효과성을 보여주며, '에이전트가 생각하는 것'과 '에이전트가 보는 것'을 일치시키는 것이 복잡한 또는 희소 에이전트 작업을 해결하는 데 핵심임을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신이 생각하는 것은 당신이 보는 것: 시각 - 언어적 호기심을 통해 VLM 에이전트의 탐색 유도

요약

핵심 포인트

댓글