본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 12:36

Ω-QVLA: 복합 회전 및 단계별 스케일링을 통한 Vision-Language-Action 모델의 강건한 양자화 (Quantization)

요약

Omega-QVLA는 VLA 모델의 온디바이스 배포를 위해 제안된 최초의 훈련 불필요 사후 양자화 프레임워크입니다. 복합 SVD-Hadamard 회전과 단계별 스케일링 기술을 통해 액션 헤드까지 균일한 W4A4 정밀도로 압축하면서도 높은 작업 성공률을 유지합니다.

핵심 포인트

  • VLA 모델 전체를 W4A4 정밀도로 압축하는 최초의 PTQ 프레임워크
  • 복합 SVD-Hadamard 회전으로 채널별 가중치 에너지 균등화
  • 단계별 DiT 활성화 스케일링을 통한 동적 범위 드리프트 흡수
  • 메모리 사용량을 71.3% 감소시키며 FP16 수준의 성능 유지

Vision-Language-Action (VLA) 모델은 단일 정책 (policy) 내에서 인지 (perception), 추론 (reasoning), 제어 (control)를 통합하지만, 수십억 개의 파라미터를 가진 백본 (backbone)과 확산 기반 (diffusion-based) 액션 헤드 (action head)로 인해 온디바이스 (on-device) 배포 비용이 매우 높습니다. 기존의 양자화 (quantization) 연구들은 LLM 백본은 압축하면서 DiT 액션 헤드는 전체 정밀도 (full precision)로 남겨두거나, 액션 헤드를 균일하게 양자화하는 것이 본질적으로 불안정하다는 믿음에 따라 혼합 정밀도 (mixed-precision) 방식에 의존하는 등 부분적인 해결책만을 제공합니다. 우리는 Omega-QVLA를 통해 이러한 가설에 도전합니다. Omega-QVLA는 언어 백본과 VLA 모델의 전체 확산 액션 헤드를 모두 균일한 W4A4 정밀도로 압축하는 최초의 훈련 불필요 사후 양자화 (training-free post-training quantization) 프레임워크로, 혼합 정밀도 할당의 필요성을 제거합니다. Omega-QVLA는 채널별 가중치 에너지 (per-channel weight energy)를 균등하게 만드는 복합 SVD-Hadamard 회전 (composite SVD-Hadamard rotation)과, 노이즈 제거 단계 (denoising steps) 전반의 동적 범위 드리프트 (dynamic-range drift)를 흡수하는 단계별 DiT 활성화 스케일링 양자화 (per-step DiT activation scaling quantization)를 결합하여 잔차 활성화 이상치 (residual activation outliers)를 분산시킵니다. LIBERO 데이터셋에서 Omega-QVLA는 Pi 0.5와 GR00T N1.5를 W4A4로 압축하여 각각 98.0%와 87.8%의 작업 성공률을 기록했으며, 이는 FP16 기준인 97.1%와 87.0%에 필적하거나 이를 상회하는 수치인 동시에 정적 메모리 사용량 (static memory footprint)을 71.3% 감소시켰습니다. 실제 조작 (manipulation) 실험을 통해 기존 방식들이 실패하는 지점에서도 부드럽고 정확한 조작이 가능함을 추가로 확인했습니다. 코드는 https://github.com/UCMP13753/Omega-QVLA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0