VLA가 기초적인 지식조차 알고 있는가? Vision-Language-Action 모델의 상식 및 세상 지식 유지 능력 측정
요약
VLA 모델이 로보틱스 미세 조정 후에도 상식과 세상 지식을 얼마나 유지하는지 측정하는 새로운 프로토콜 Act2Answer를 소개합니다. 실험을 통해 VLA가 단순 개념에는 강하지만 풍부한 의미론적 범주에서는 VLM보다 성능이 낮음을 확인했습니다.
핵심 포인트
- VLA의 지식 유지 능력을 평가하는 경량 프로토콜 Act2Answer 제안
- 행동 기반 성공률을 통해 제어 혼란을 줄인 평가 방식 도입
- VLA는 단순 개념은 견고하나 복잡한 의미론적 범주에서는 격차 발생
- VQA 공동 학습이 지식 유지 능력 향상에 기여함을 확인
- 답변 관련 신호가 VLA 중간 계층에서 정점을 찍는 현상 발견
Embodied Vision-Language-Action (VLA) 모델은 일반적으로 강력한 사전 학습된 VLM (Vision-Language Models)을 로보틱스 데이터로 미세 조정(fine-tuning)하여 얻어지지만, 적응(adaptation) 후에 이들이 얼마나 많은 상식과 사실적 지식을 유지하는지는 불분명합니다. 지식에 민감한 작업에서의 실패는 지식의 부재와 저수준 제어(low-level control)의 낮은 일반화 성능이 뒤섞여 있어 모호합니다. 우리는 에이전트가 행동을 통해 답을 하도록 요구함으로써 VLM 지식 벤치마크를 VLA 평가로 변환하는 경량 프로토콜인 Act2Answer를 소개합니다. 각 질문은 에이전트가 후보 답변 중에서 선택하기 위해 단일 객체 배치 행동(object-placement action)을 수행하는 짧은 테이블탑 에피소드가 되며, 이를 통해 제어 혼란(control confounds)을 줄이면서 행동에 기반한 성공률(action-grounded success rate)을 산출합니다. 우리는 다양한 상식 및 세상 지식 범주에 걸쳐 이러한 환경의 테스트 스위트를 큐레이션하였으며, VLM 백본(backbone)과 액션 헤드(action head) 전반에 걸쳐 답변 관련 정보를 국지화하기 위한 계층별 의도 프로빙(layerwise intent probing)을 도입합니다. 7개의 VLA 모델과 9개의 VLM 베이스라인을 대상으로 한 대규모 연구에서, 우리는 범주별로 모델을 체계적으로 순위 매겼으며, 다음과 같은 사실을 발견했습니다: VLA는 단순한 개념에서는 견고한 성능을 보이는 반면, 소스 VLM과 비교했을 때 더 풍부한 의미론적 범주에서는 더 큰 격차를 보입니다. 또한 VQA 공동 학습(co-training)이 더 나은 지식 유지와 관련이 있으며, 답변 관련 신호는 VLA의 중간 계층에서 정점을 찍지만 상위 계층에서는 약화된다는 점을 확인했습니다. Act2Answer는 https://tttonyalpha.github.io/act2answer/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기