Semantic Flip: Embodied Question Answering 및 공간 로컬라이제이션에서의 강건한 거부를 위한 합성 OOD 생성
요약
Embodied Agent가 시각적 근거가 부족한 질문에 대해 잘못된 답변을 내놓는 문제를 해결하기 위해 Semantic Flip 프레임워크를 제안합니다. 질의와 비디오 메모리를 독립적으로 변환하여 합성 OOD 데이터를 생성함으로써, 모델 재학습 없이도 강건한 거부(refusal)가 가능한 경량 모듈을 학습시킵니다.
핵심 포인트
- 시각적 근거가 부족할 때 발생하는 VLM의 과잉 확신 문제 해결
- Semantic Flip: 질의와 메모리 변환을 통한 합성 OOD 생성 프레임워크
- 기존 VLM을 재학습하지 않고 부착 가능한 경량 거절 모듈 제안
- 새로운 공간 로컬라이제이션 거절 벤치마크 SpaceReject 소개
실제 환경에서 Embodied Agent(체화된 에이전트)를 신뢰성 있게 배포하기 위해서는 답변할 수 없는 사용자 질의를 탐지하는 것이 여전히 필수적입니다. 그러나 최신 Vision-Language Models (VLMs)는 가용한 시각적 메모리(visual memory)가 질의를 지원할 수 없는 경우에도 지나치게 확신에 찬 답변을 생성하는 경우가 많습니다. 이러한 과잉 확신은 작업 의존적인 다양한 위험을 초래합니다. 에이전트는 Embodied Question Answering (체화된 질의응답)에서 사용자에게 오해의 소지가 있는 정보를 제공할 수 있으며, 공간 추론(spatial reasoning)을 통한 내비게이션 시 임의의 좌표를 선택하여 사용자를 물리적으로 그곳으로 안내할 수 있습니다. 이러한 높은 위험성에도 불구하고, Embodied VLM이 언제, 어떻게 "모릅니다"라고 응답해야 하는지를 직접적으로 다룬 선행 연구는 거의 없습니다. 본 연구는 외부의 OOD(Out-of-Distribution, 분포 외) 주석 없이도 Embodied Refusal (체화된 거부)를 위한 보조적인 OOD 샘플을 합성하는 단순하지만 효과적인 프레임워크인 Semantic Flip을 제안합니다. 핵심 아이디어는 질의(query)와 비디오 메모리(video memory)를 독립적으로 변환하여 충분한 시각적 근거(visual grounding)가 부족한 보조 OOD 쌍을 구축하는 것입니다. 이렇게 합성된 쌍을 통해 동결된(frozen) 사전 학습된 VLM 상단에 경량화된 거절 모듈(rejection module)을 학습시킬 수 있습니다. 이 모듈은 기본 모델을 재학습시키지 않고도 기존의 모든 VLM 기반 파이프라인에 부착할 수 있습니다. 두 가지 상호 보완적인 벤치마크를 통해, Semantic Flip은 강력한 프롬프팅(prompting) 베이스라인들을 일관되게 능가합니다. 또한 본 연구는 긴 비디오 메모리에 대해 의도적으로 답변할 수 없는 질의를 포함하는 공간 로컬라이제이션(spatial localization)을 위한 새로운 거절 벤치마크인 SpaceReject를 소개하며, 여기서 Semantic Flip은 0.9559의 $F_1$ 점수를 달성했습니다. 소스 코드와 데이터셋은 https://github.com/ndb796/SemanticFlip 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기