시각-언어-행동 (VLA) 모델의 파인튜닝에는 생각보다 더 적은 레이어가 필요합니다
요약
VLA 모델의 레이어 간 표현 중복성을 활용하여 모델 깊이를 최대 50%까지 압축하는 training-free 구조적 압축 파이프라인을 제안합니다. 이를 통해 성능 저하 없이 파인튜닝 시간과 실시간 추론 속도를 획기적으로 개선했습니다.
핵심 포인트
- VLA 모델의 심각한 레이어별 표현 중복성 발견
- Centered Kernel Alignment을 통한 training-free 압축 방식 도입
- 모델 깊이를 최대 50%까지 영구적으로 압축 가능
- 파인튜닝 시간 40-50% 단축 및 추론 속도 30% 향상
- 다양한 시뮬레이션 및 실제 로봇 환경에서 성능 검증 완료
대규모 비디오-로봇 데이터셋으로 사전 학습된 시각-언어-행동 (Vision-Language-Action, VLA) 모델은 로봇 조작 (robotic manipulation) 분야에 혁신을 일으켰으나, 수십억 개의 파라미터를 가진 아키텍처는 다운스트림 파인튜닝 (downstream fine-tuning) 및 실시간 추론 (real-time inference) 과정에서 과도한 계산 부담을 초래합니다. 본 연구에서는 이러한 연속 제어 파운데이션 정책 (continuous control foundation policies, 예: pi_0, GR00T-N1.5)의 매우 중요하고도 비자명한 아키텍처적 특성을 밝혀냅니다. 즉, 이 모델들은 다양한 물리적 궤적 (physical trajectories)으로 학습되었음에도 불구하고, 심각한 레이어별 표현 중복성 (layer-wise representational redundancy)을 보입니다. 이를 활용하기 위해, 우리는 기존 방식들처럼 최적화된 토큰 축소 (token reductions)나 동적 레이어 선택기 (dynamic layer selectors)를 학습하기 위해 전체 규모의 모델을 로드할 필요가 없는, 완전히 학습이 필요 없는 (training-free) 구조적 압축 파이프라인을 도입합니다. 대신, 중심 커널 정렬 (Centered Kernel Alignment)을 통한 단 한 번의 순전파 (forward pass)만을 사용하여 중복된 레이어 특징을 식별함으로써, VLM 백본 (backbone)과 연속 제어 정책 헤드 (continuous control policy head) 모두에서 쌍둥이 레이어를 제거하여 모델 깊이를 최대 50%까지 영구적으로 압축합니다. 이렇게 간소화된 아키텍처의 다운스트림 파인튜닝은 이중 가속화 이점을 제공합니다: 훈련 시간의 40-50% 단축 및 실시간 추론 속도의 최대 30% 향상을 달성하면서도, 전체 규모의 베이스 모델 성능과 대등하거나 이를 능가합니다. 우리는 세 가지 시뮬레이션 벤치마크 (LIBERO, RoboCasa, SimplerEnv)와 4개의 고유한 로봇 구현체 (robotic embodiments)에 걸친 10가지 다양한 실제 조작 작업에서 우리의 방법을 종합적으로 검증했습니다. 이러한 결과는 고급 VLA 모델이 이전에 가정했던 것보다 훨씬 적은 레이어를 필요로 한다는 것을 증명하며, 확장 가능한 로봇 학습을 위한 매우 계산 효율적인 패러다임을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기