VLESA: 인간 활동 모니터링을 위한 시각-언어 체화된 안전 에이전트
요약
VLESA는 1인칭 시점 비디오를 통해 인간의 활동을 모니터링하고 위험을 예측하여 실시간 개입을 수행하는 시각-언어 체화된 안전 에이전트 프레임워크입니다. GRPO 기반의 Q-필터를 통해 의도에 따른 안전성을 평가하며, ASIMOV-2.0 벤치마크에서 높은 성능을 입증했습니다.
핵심 포인트
- 1인칭 시점 비디오 기반의 실시간 안전 개입 프레임워크 제안
- 의도 의존적 안전 문제를 해결하기 위한 목표 조건부 안전 Q-필터 학습
- GRPO를 활용하여 행동 안전성을 41%p 이상 향상
- ASIMOV-2.0 벤치마크를 통한 모델 성능 검증
AI 시스템이 물리적 작업에서 인간을 점점 더 많이 보조함에 따라, 안전을 보장하는 것이 무엇보다 중요해지고 있습니다. 물리적 행동은 디지털 오류와 달리 즉각적이고 되돌릴 수 없는 결과를 초래하기 때문입니다. 본 논문에서는 1인칭 시점 (egocentric) 비디오로부터 인간의 활동을 모니터링하고, 위험한 행동이 예측될 때 실시간 안전 개입을 트리거하는 프레임워크인 VLESA (Vision-Language Embodied Safety Agent)를 소개합니다. VLESA는 동일한 행동이라도 문맥에 따라 안전할 수도, 위험할 수도 있는 의도 의존적 안전 (intent-dependent safety) 문제를 해결합니다. 1인칭 시점 프레임과 목표 조건부 (goal-conditioned) 안전 주석을 쌍으로 구성한 데이터셋을 도입하였으며, 이를 통해 재학습 없이 추론된 의도에 따라 행동을 평가하는 GRPO (Group Relative Policy Optimization) 기반의 목표 조건부 안전 Q-필터 (Q-filter)를 학습시켰습니다. 이에 더해, 비디오로부터 목표를 공동으로 추론하고 미래 행동을 예측하는 의도-행동 예측 에이전트를 제안합니다. ASIMOV-2.0 벤치마크에서 VLESA는 베이스라인 모델들과 비교하여 정확한 정답 프레임 (ground-truth frame)에서의 개입 정확도가 더 높게 나타났으며, GRPO로 학습된 Q-필터는 목표 조건부 제약 디코딩 (goal-conditioned constrained decoding)을 통해 행동 안전성을 41 퍼센트 포인트 이상 향상시켰습니다. 코드는 https://github.com/HanjiangHu/VLESA 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기