Gold Points Sniper: 미세한 동작 이해를 위한 VLM의 자기 유도형 시각적 추론
요약
미세한 인간 동작을 이해하기 위해 경량 VLM에 자기 유도형 멀티모달 추론 능력을 부여하는 GPS 프레임워크를 제안합니다. Gold Points Extractor, Selective Socratic Questioner, Semantic Entailment Evaluator를 통해 사실적 충실도와 정보 풍부함을 동시에 확보합니다.
핵심 포인트
- 경량 VLM을 위한 자기 유도형 멀티모달 추론 프레임워크 GPS 제안
- 세 가지 핵심 모듈을 통한 세부 사항 식별, 검증 및 사실성 평가
- GPT-4o에 필적하는 성능을 달성하며 사실적 정확도 유지
- 가정용 로봇의 안전하고 정밀한 인간-로봇 상호작용 토대 마련
일상적인 환경에서 작동하는 로봇은 사람들이 아주 작은 영역만을 차지하는 넓은 시야로부터 미세한 인간의 동작, 의도 및 맥락적 단서를 이해해야 하지만, 현재의 시스템으로는 이러한 능력을 충족하지 못하고 있습니다. 개방형 어휘 동작 인식 (open-vocabulary action recognition) 방법론은 여전히 미리 정의된 레이블을 할당하는 데 국한되어 있고, 시각-언어 모델 (VLMs)은 출력물의 정보적 풍부함과 사실적 충실도 사이의 내재적인 트레이드오프 (trade-off) 문제에 직면해 있어, 두 접근 방식 모두 신뢰할 수 있는 인간-로봇 상호작용 (human-robot interaction)에 필요한 깊은 의미론적 해석을 달성하지 못하고 있습니다. 우리는 미세한 인간 동작 이해를 위해 경량 VLM에 자기 유도형 멀티모달 추론 (self-guided multimodal reasoning) 능력을 부여하는 새로운 프레임워크인 Gold Points Sniper (GPS)를 제안합니다. 우리의 접근 방식은 세 가지 핵심 모듈로 구성됩니다: 동작과 관련된 중요한 세부 사항을 식별하도록 VLM을 학습시키는 Gold Points Extractor, 선택적 자기 질문 (selective self-questioning)을 통해 이러한 세부 사항을 검증하고 정제하는 Selective Socratic Questioner, 그리고 의미론적 함의 분류 (semantic entailment classification)를 사용하여 사실적 일관성을 정량적으로 평가하는 Semantic Entailment Evaluator입니다. CAP 벤치마크를 기반으로 구축된 우리가 큐레이션한 인스트럭션 튜닝 (instruction-tuning) 데이터셋을 통한 광범위한 실험 결과, GPS로 강화된 경량 VLM은 상당한 성능 향상을 달성하였으며, 일부 모델은 우수한 사실적 정확도를 유지하면서도 독점적인 GPT-4o에 필적하는 성능에 도달했습니다. 우리의 연구는 가정용 로봇 공학에서 미세한 동작 이해를 위한 신뢰할 수 있는 토대를 구축하며, 로봇이 정보 밀도가 높으면서도 사실에 기반한 설명을 통해 인간의 행동을 안전하게 해석할 수 있도록 합니다. 소스 코드, 학습 구성, 주석 프롬프트 및 데이터셋 세부 정보는 https://github.com/Haodi-Liu/GPS-Gold-Point-Sniper 에서 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기