arXiv논문2026. 06. 09. 13:08

당신의 모델은 이미 알고 있습니다: Vision-Language-Action 모델을 위한 어텐션 가이드 기반 안전 필터

요약

VLA 모델의 어텐션 헤드를 활용하여 별도의 추가 학습 없이 실시간으로 장애물을 감지하고 충돌을 방지하는 안전 필터 프레임워크를 제안합니다. 기존 VLM 기반 방식보다 빠르며, 움직이는 장애물이 있는 동적 환경에서도 높은 성능을 입증했습니다.

핵심 포인트

VLA 모델 내 어텐션 헤드가 물체 위치를 국지화함을 발견
추가 훈련이 필요 없는(training-free) 실시간 안전 프레임워크 제안
제어 장벽 함수(CBF)와 결합하여 동적 장애물 충돌 회피 가능
동적 환경에서 기존 오라클 방식 대비 평균 43% 높은 성능 달성

Vision-Language-Action (VLA) 모델은 다양한 로봇 조작 (robotic manipulation) 작업에서 인상적인 엔드투엔드 (end-to-end) 성능을 입증해 왔습니다. 그러나 이러한 정책 (policies)은 장면 내 작업과 무관한 물체와의 충돌을 방지한다는 보장을 제공하지 않습니다. 기존의 안전 필터 (safety filters)는 시각-언어 모델 (VLM)에 질의하여 장애물과 그 위치를 식별함으로써 이 문제를 우회합니다. 하지만 이는 제어 루프 (control loop) 내에서 실행하기에는 너무 느리며, 에피소드 초기화 시점에만 호출될 수 있어 필터가 움직이는 장애물을 추적할 수 없게 만듭니다. 우리는 VLA 모델 내의 소수의 어텐션 헤드 (attention heads)가 정책이 접근하려는 물체를 안정적으로 국지화 (localize)한다는 사실을 발견했습니다. 이러한 헤드들은 매 단계마다 어텐션 헤드로부터 활성 타겟 (active target)을 얻고, 장면의 나머지 부분을 장애물로 취급하여 이를 제어 장벽 함수 (Control Barrier Function, CBF) 필터에 입력하는 훈련이 필요 없는 (training-free) 안전 프레임워크 내에서 활용될 수 있습니다. 경량 실시간 물체 추적기 (real-time object tracker)와 결합하여, 이를 통해 비정적 (non-static) 장애물에 대한 충돌 회피가 가능해집니다. 우리는 움직이는 장애물을 추가하여 확장한 SafeLIBERO에서 우리의 프레임워크를 평가합니다. 기존의 정적 벤치마크에서 우리의 방법은 에피소드 초기화 시점에 한 번 실행되는 VLM 기반 식별 단계를 모방하여, 타겟을 식별하기 위해 특권적 시뮬레이터 상태 (privileged simulator state)를 사용하는 오라클 (oracle)과 유사한 성능을 보입니다. 오라클의 초기 시간 타겟 할당이 유효하지 않게 되는 동적 변형 (dynamic variant) 버전에서는, 우리의 방법이 오라클보다 평균적으로 43% 더 높은 성능을 크게 상회하며 나타납니다. 우리의 연구 결과는 실시간 안전 필터링에 필요한 지각 신호 (perceptual signals)가 이미 VLA 정책 내에 존재하며, 추가적인 훈련이나 무거운 보조 모델 없이도 활용될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 모델은 이미 알고 있습니다: Vision-Language-Action 모델을 위한 어텐션 가이드 기반 안전 필터

요약

핵심 포인트

댓글