arXiv논문2026. 06. 23. 11:21

NAC: 시각-언어-행동 (VLA) 모델을 위한 신경 행동 코덱 (Neural Action Codec)

요약

VLA 모델의 효율적인 로봇 제어를 위해 오디오 코덱 기술을 응용한 신경 행동 코덱(NAC)을 제안합니다. RVQGAN 구조를 활용하여 로봇 행동 궤적을 고충실도로 압축하며, 기존 VQ 기반 토크나이저보다 낮은 재구성 오차와 높은 작업 성공률을 보여줍니다.

핵심 포인트

오디오 코덱의 RVQ 구조를 로봇 행동 토크나이징에 적용
멜-스펙트로그램 대신 시간 영역 및 비-멜 스펙트럼 손실 함수 사용
오프셋 코드북을 통해 조밀하고 순서 있는 토큰 공간 제공
기존 VQ 기반 방식 대비 높은 압축률과 낮은 재구성 오차 달성
LIBERO-10, RoboMimic 등 다양한 벤치마크에서 성능 입증

시각-언어-행동 (Vision-language-action, VLA) 모델은 연속적인 로봇 제어와 자기회귀 시퀀스 모델링 (autoregressive sequence modeling) 사이를 연결하기 위해 이산 행동 토크나이저 (discrete action tokenizers)에 의존하지만, 기존의 토크나이저들은 압축률, 지연 시간 (latency), 그리고 다운스트림 성능 (downstream performance) 사이에서 종종 절충(trade-off)을 해야 합니다. 우리는 오디오 파운데이션 모델 (audio foundation models)의 표준 프런트엔드로 사용되는 잔차 벡터 양자화 (residual vector quantization, RVQ)를 포함한 합성곱 인코더-디코더 (convolutional encoder-decoder) 구조인 신경 오디오 코덱 (neural audio codecs)의 관점에서 이 설계를 재검토합니다. 이러한 성공에 영감을 받아, 우리는 짧은 로봇 행동 궤적 (robot action trajectories)을 다채널 1D 신호로 취급하고 멀티스케일 RVQGAN 구조를 사용하여 이를 압축하는 신경 행동 코덱 (Neural Action Codec, NAC)을 소개합니다. 우리는 오디오 전용 멜-스펙트로그램 (mel-spectrogram) 목적 함수가 운동학적 신호 (kinematic signals)에는 부적합하다는 것을 관찰했습니다. 그러나 이를 단순한 시간 영역 (time-domain) 및 비-멜 스펙트럼 재구성 손실 (non-mel spectral reconstruction losses)로 교체함으로써, 오디오 코덱 스타일의 모델은 상당한 구조적 변경 없이도 높은 충실도 (fidelity)로 행동을 오토인코딩 (autoencode)할 수 있습니다. NAC는 오프셋 코드북 (offset codebooks)을 통해 조밀하고 순서가 있는 토큰 공간을 제공하여, 표준 자기회귀 정책 (autoregressive policies)이 짧고 구조화된 시퀀스 상에서 작동할 수 있게 합니다. 한편, ISTFT 헤드와 적대적 판별기 (adversarial discriminators)를 갖춘 Vocos 스타일의 디코더는 매끄럽고 상세한 궤적을 복원합니다. LIBERO-10, RoboMimic, 그리고 일련의 실제 조작 작업 (real-world manipulation tasks) 전반에 걸쳐, NAC는 유사하거나 더 나은 압축률에서 binning, FAST, 그리고 이전의 VQ 기반 토크나이저들보다 더 낮은 재구성 오차 (reconstruction error)와 더 높은 성공률을 달성합니다. 이러한 결과는 재용도화된 신경 오디오 코덱이 현대 VLA의 학습된 행동 토크나이징 (action tokenization)을 위한 강력하고 실용적인 백본 (backbone)을 제공함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NAC: 시각-언어-행동 (VLA) 모델을 위한 신경 행동 코덱 (Neural Action Codec)

요약

핵심 포인트

댓글