arXiv논문2026. 06. 01. 12:37

협업적 재구성을 위한 다회차 다중 에이전트 대화가 공간 추론에 대한 VLM 성능을 향상시키지만, 그 효과는 미미함

요약

VLM을 활용하여 협업적 재구성을 위한 다회차 다중 에이전트 대화 프레임워크를 연구했습니다. 실험 결과, 대화를 통한 공간 추론 성능 향상은 미미하며 시각적 공간 그라운딩에 여전히 한계가 있음을 확인했습니다.

핵심 포인트

VLM의 시각적 공간 추론 및 그라운딩 능력 한계 확인
상세한 텍스트 표현이 재구성 성공률을 높임
분해된 이미지 표현이 성능 향상에 기여함
협업 에이전트의 시각적 지시 생성 능력의 필요성 제시

다양한 환경에서 작동하는 로봇은 객체와 공간 레이아웃을 해석하기 위해 시각적 입력 (visual input)에 의존합니다. 인간 협업 작업에서 로봇은 이러한 이해를 언어를 통해 전달할 것으로 기대됩니다. 시각-언어 모델 (Vision-language models, VLMs)은 시각적 해석, 질의응답, 지시 수행을 포함하는 로봇 작업을 지원하지만, 공간 추론 (spatial reasoning)을 요구하는 협업 대화 작업에서의 능력은 여전히 미개척 상태로 남아 있습니다. 우리는 시각적 해석, 그라운딩 (grounding), 언어 가이드 상호작용, 그리고 행동 생성 (action generation)을 결합한 협업 구조 구축 작업을 통해 이러한 격차를 연구합니다. 우리는 VLM이 대화를 사용하여 시각적 및 텍스트 입력으로부터 목표 구조를 재구성하는 프레임워크를 개발합니다. 우리는 다양한 상호작용 설정, 입력 양식 (modalities), 그리고 이미지 표현 (image representations)에 걸쳐 오픈 웨이트 (open-weight) 및 폐쇄형 (closed) VLM을 평가합니다. 결과에 따르면, 평가된 VLM들에게 시각적 표현에 대한 공간 추론은 여전히 어려운 과제로 남아 있습니다. 목표에 대한 상세한 텍스트 표현은 양식 조건 전반에서 더 높은 재구성 성공률을 보였으며, 분해된 이미지 표현은 성능을 향상시켰습니다. 이러한 발견은 협업 VLM 에이전트의 시각적 공간 그라운딩 (visual spatial grounding) 및 그라운딩된 지시 생성 (grounded instruction generation)의 한계를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

협업적 재구성을 위한 다회차 다중 에이전트 대화가 공간 추론에 대한 VLM 성능을 향상시키지만, 그 효과는 미미함

요약

핵심 포인트

댓글