Vision-Language-Action (VLA) 모델에서 이산적 토큰화 (Discrete Tokenization)의 한계를 극복하는 방법

핵심 요약 (Key Takeaways)

새로운 연구에 따르면 Vision-Language-Action (VLA) 모델에서 "압축 격차 (Compression Gap)"가 확인되었으며, 이는 비전 인코더 (Vision Encoder)가 개선되더라도 이산적 행동 토큰화 (Discrete Action Tokenization)가 성능 확장의 병목 현상이 될 수 있음을 보여줍니다.
이러한 병목 현상은 이산적 행동 표현 (Discrete Action Representations)에 사용되는 고정된 용량의 코드북 (Codebooks)에서 기인합니다. 즉, 더 풍부한 시각적 입력이 제한된 행동 어휘 (Action Vocabulary)를 통해 전달될 수 없다는 것입니다.
해결책으로는 확산 정책 (Diffusion Policies)과 같은 연속적 행동 표현 (Continuous Action Representations), 개선된 학습형 토크나이저 (Learned Tokenizers), 그리고 이산적 추론 (Discrete Reasoning)과 연속적 행동 디코딩 (Continuous Action Decoding)을 결합한 하이브리드 아키텍처 (Hybrid Architectures) 등이 있습니다. 로봇의 비전 시스템을 확장하면 물리적 작업 성능도 향상되어야 하지만, 새로운 연구는 행동이 이산적 토큰 (Discrete Tokens)으로 인코딩될 때 이러한 가정이 깨진다는 것을 보여줍니다. 이번 주 arXiv에 발표된 논문인 “The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling”은 왜 많은 VLA 모델에서 비전 인코더를 업그레이드해도 수익 체감 (Diminishing Returns)이 발생하는지를 규명합니다. 즉, 행동 토크나이저가 파이프라인에서 가장 강력한 병목 지점이 되어, 개선된 이득이 모터에 도달하기 전에 삼켜버리는 것입니다. 이것이 실제 현장에서 무엇을 의미하는지, 그리고 업계가 이에 대해 무엇을 하고 있는지 알아보겠습니다.

1단계: VLA 모델의 압축 격차 (Compression Gap) 이해하기

이산적 토큰화 (Discrete Tokenization)의 역할 인정하기

이산적 토큰화 (Discrete Tokenization) — 연속적인 행동 신호를 고정된 토큰 어휘로 변환하는 것 — 는 RT-1, RT-2 및 OpenVLA를 포함한 VLA 모델의 기초적인 설계 선택이었습니다. 그 매력은 명확합니다. 로봇의 행동을 이산적 심볼 (Discrete Symbols)의 시퀀스로 취급함으로써, VLA 모델은 대규모 언어 모델 (LLMs)을 위해 개발된 트랜스포머 (Transformer) 아키텍처 및 학습 파이프라인에 직접 연결될 수 있습니다. 그리퍼 위치나 관절 각도는 문장의 단어와 유사하게 이산적 ID로 분류되며, 이를 통해 모델은 시각적 입력, 언어 지시 사항 및 로봇 행동을 단일 통합 프레임워크 내에서 처리할 수 있습니다. 이러한 단순함은 실제적인 장점을 제공하지만, 숨겨진 비용이 따릅니다.

"압축 격차 (Compression Gap)"를 정보 병목 현상으로 식별하기

핵심적인 발견은 정보 이론적 (information-theoretic) 문제입니다. 행동 (actions)이 고정된 용량의 코드북 (codebook)을 통해 이산화 (discretized)될 때, 해당 코드북은 전체 시각-운동 (visuomotor) 파이프라인에서 가장 강력한 제약 조건이 됩니다. 상위 단계의 시각적 표현 (visual representation)이 아무리 풍부해지더라도, 고정된 행동 어휘 (action vocabulary)는 그 정보가 실제 실행에 도달할 수 있는 양을 제한합니다. 이는 전형적인 압축 한계 (compression ceiling)입니다. 인코더 (encoder)는 개선되지만, 채널 (channel)은 개선되지 않는 것입니다.

LIBERO 벤치마크에 대한 실험은 이를 명확하게 보여줍니다. Diffusion Policy와 같은 연속적 행동 정책 (continuous action policies)은 비전 인코더 (vision encoder)가 업그레이드될 때 상당한 성능 향상을 보입니다. 반면 OAT와 같이 이산적 행동 토큰화 (discrete action tokenization)에 의존하는 모델들은 동일한 스케일링 (scaling) 범위에서 완화된 성능 향상을 보입니다. 제한 요인은 이산성 (discreteness) 그 자체라기보다 코드북의 용량 (capacity)입니다. 정밀한 물리적 조작 (physical manipulation)에 필수적인 미세한 세부 사항들이 로봇이 움직이기도 전에 압축 과정에서 손실됩니다.

2단계: 연속적 행동 표현 (Continuous Action Representations) 구현

미세 제어를 위한 확산 기반 정책 (Diffusion-Based Policies) 채택

이산적 병목 현상을 해결하는 가장 직접적인 방법은 이를 완전히 제거하고 연속적 행동 표현 (continuous action representations)으로 전환하는 것입니다. 확산 정책 (Diffusion policies)은 이 분야에서 선도적인 접근 방식으로 부상했습니다. 이들은 연속적인 행동 궤적 (action trajectories)을 직접 생성하여, 숙련된 조작 (dexterous manipulation)이 요구하는 고주파 정밀도 (high-frequency precision)를 제공합니다. 자기회귀적 (autoregressive) 이산 토큰 생성과 달리, 확산 모델 (diffusion models)은 행동 시퀀스를 병렬로 생성할 수 있으며, 이는 장기 과제 (long-horizon tasks)의 지연 시간 (latency) 측면에서 중요합니다.

두 가지 주목할 만한 구현 사례가 실제 적용 모습을 보여줍니다. “Discrete Diffusion VLA” 모델은 이산적 확산 (discrete diffusion)을 사용하여 액션 청크 (action chunks)를 이산화하며, 적응형 디코딩 순서 (adaptive decoding order)와 개선된 오류 수정 (error correction)을 포함하여 표준 VLM의 이산적 토큰 (discrete token) 인터페이스와 호환성을 유지하면서도 확산 패러다임 (diffusion paradigm)의 점진적 정교화 (progressive refinement) 특성을 보존합니다. 별도의 프레임워크인 E0는 양자화된 액션 토큰 (quantized action tokens)에 대한 반복적 노이즈 제거 과정 (iterative denoising process)으로 액션 생성을 공식화하여, 이산화 정밀도 (discretization granularity)와 계획 지평 (planning horizon)에 대한 유연한 제어를 제공합니다. 두 접근 방식 모두 시뮬레이션 및 실제 환경 전반에서 강력한 일반화 (generalisation) 성능을 입증합니다.

매끄러운 궤적 생성을 위한 Flow Matching 탐색

Flow matching은 VLA 프레임워크에서 주목받고 있는 또 다른 연속적 액션 (continuous-action) 기술입니다. 액션을 빈 (bin)으로 나누는 대신, 단순한 분포에서 목표 액션의 복잡한 분포로의 변환을 직접 모델링합니다. 이를 통해 이산적 빈닝 (discrete binning)의 잠재적으로 끊기는 (jerky) 출력 대신 매끄럽고 연속적인 궤적 (trajectories)을 생성합니다. 시각-언어 백본 (vision-language backbones)과 결합된 flow matching은 생성된 액션에 유연한 물리적 상호작용에 필요한 연속성을 부여합니다. 이는 액션 공간이 고차원이고 매끄러운 움직임이 중요한 범용 로봇 제어에 특히 적합합니다.

3단계: 이산적 토큰화 (Discrete Tokenization) 기술의 발전

연속적 표현 (Continuous representations)이 항상 최적의 절충안은 아닙니다. 기존 VLM 아키텍처를 계속 활용해야 하는 타당한 이유들이 존재합니다. 대안은 이산적 토큰화 자체를 더 스마트하게 만드는 것이며, 고정된 용량의 코드북 (codebooks)과 단순한 차원별 빈닝 (per-dimension binning)을 넘어선 단계로 나아가는 것입니다.

확장 가능한 학습형 토크나이저 개발 (VQ-VAE 기반)

Vector Quantized Variational AutoEncoder (VQ-VAE) 기반 토크나이저는 수작업으로 설계된 빈(bin)에 의존하는 대신, 코드북(codebook)을 구축하는 데 학습된 접근 방식을 사용하여 로봇 동작의 시공간적 역학(spatio-temporal dynamics)을 적응적으로 포착합니다. VQ-VLA에 관한 연구에 따르면, 토크나이저의 정밀도는 장기 동작 모델링(long-horizon action modeling)의 향상과 직접적인 상관관계가 있습니다. 또한, 시뮬레이션과 실제 동작 궤적 사이의 도메인 격차(domain gap)가 작기 때문에, 합성 동작 데이터(synthetic action data)를 사용하여 실제 배포 시 유의미한 성능 저하 없이 토크나이저 학습을 확장할 수 있습니다. 합성 데이터의 양이 증가함에 따라, 이러한 토크나이저들은 작업 성공률, 추론 속도 및 누적 오차 감소 측면에서 선형적 확장성(linear scaling properties)을 보여줍니다. 결정적으로, 전체 VLA 모델을 확장하는 것보다 토크나이저를 확장하는 것이 계산 비용 측면에서 훨씬 저렴합니다.

주파수 영역 압축 활용 (FAST)

주파수 공간 동작 시퀀스 토크나이징 (Frequency-space Action Sequence Tokenization, FAST)은 차원별 빈닝(binning) 대신 이산 코사인 변환 (Discrete Cosine Transforms, DCT)을 사용하여 주파수 영역에서 동작 신호를 압축하는 다른 각도의 접근 방식을 취합니다. 이는 타임스텝별 빈닝 방식이 무너지는 고도의 정교함과 고주파수가 요구되는 작업에서도 실행 가능하게 만듭니다. 수백만 개의 실제 로봇 동작 궤적을 통해 학습된 범용 로봇 동작 토크나이저인 FAST+는 다양한 동작 공간과 제어 주파수에 걸쳐 블랙박스 토크나이저로서 작동합니다. 연구에 따르면, FAST를 VLA 모델과 결합하면 디퓨전 VLA (diffusion VLAs)의 성능과 대등하면서도 학습 시간을 크게 단축할 수 있어, 자기회귀 (autoregressive) 프레임워크를 유지하고자 하는 팀에게 강력한 효율성 대안이 됩니다.

순서형 토크나이징 고려 (OAT)

Ordered Tokenization (OAT)은 구조화된 이산 표현 (structured discrete representations)을 통해 압축성 (compression), 해독 가능성 (decodability), 그리고 인과적 구조 (causal structure)를 동시에 충족시키고자 시도합니다. “Compression Gap” 논문은 고정 용량 코드북 (fixed-capacity codebooks)을 사용하는 OAT의 현재 한계를 강조하지만, 이는 여전히 활발한 연구 방향으로 남아 있습니다. 향후 연구에서는 인과적 구조를 포기하지 않으면서도 OAT의 용량을 확장할 수 있는 적응형 코드북 (adaptive codebooks) 및 하이브리드 방식 (hybrid schemes)을 탐색하고 있으며, 이는 회귀 (autoregressive) 생성에 있어 OAT를 매력적으로 만드는 핵심 요소입니다.

Phase 4: 하이브리드 아키텍처 구현

압축 격차 (compression gap)에 대한 가장 아키텍처적으로 야심 찬 대응은 이산적 추론 (discrete reasoning)과 연속적 제어 (continuous control) 사이에서 하나를 선택하는 것을 멈추고, 두 가지를 모두 사용하는 시스템을 구축하는 것입니다.

협력적 확산 및 회귀 통합 (HybridVLA)

HybridVLA는 두 방식의 약점을 정면으로 다루는 통합 프레임워크입니다. 순수하게 회귀적인 이산 방식은 동작의 연속성 (action continuity)을 저해하며, 순수하게 확산 (diffusion) 기반 방식은 VLM (Vision-Language Models)의 사전 학습된 추론 능력을 완전히 활용하지 못합니다. HybridVLA는 두 생성 패러다임이 서로 간섭하는 것을 방지하도록 설계된 학습 레시피를 사용하여, 단일 대규모 언어 모델 (LLM) 내의 다음 토큰 예측 (next-token prediction) 프로세스에 확산 디노이징 (diffusion denoising)을 직접 통합합니다.

결과에 따르면 이산적 예측 방식과 연속적 예측 방식은 서로 경쟁하기보다 오히려 서로를 강화할 수 있으며, 각 방식은 서로 다른 작업 유형에서 상대적인 강점을 보여줍니다. 협력적 동작 앙상블 (collaborative action ensemble) 메커니즘은 추론 시점에 두 예측을 적응적으로 융합하며, 시뮬레이션 및 실제 환경 벤치마크 모두에서 단일 방식보다 더 견고한 제어를 생성한다고 보고되었습니다.

고주파 제어를 위한 이중 시스템 설계 활용

두 번째 하이브리드 접근 방식은 구조적으로 문제를 분리합니다. 대규모 시각-언어 백본 (vision-language backbone)이 고수준의 추론 (high-level reasoning) 및 작업 이해를 담당하는 동안, 별도의 빠른 시각-운동 정책 (fast visuomotor policy)이 이러한 내부 표현을 실제 하드웨어가 요구하는 주파수의 연속적인 제어 신호 (continuous control signals)로 변환합니다. 휴머노이드 로봇을 위한 Figure AI의 Helix VLA 모델이 이 패턴을 따릅니다. 즉, System 2 (느리고 언어에 기반한 추론)가 지시문 파싱 및 장면 분석을 처리하고, System 1 (빠르고 반응적인 제어)이 부드러운 모터 명령을 생성합니다. 이러한 분리는 제어 루프 내의 압축 격차 (compression gap)를 완전히 우회합니다. 왜냐하면 이산적 토큰 (discrete tokens)이 미세한 운동 정보를 전달할 필요가 없기 때문이며, 해당 정보는 전용 연속 정책 (continuous policy)에 의해 하류 (downstream)에서 처리됩니다.

5단계: VLA 모델 스케일링을 위한 데이터 및 평가 전략

다양하고 고품질인 데이터 활용

선택된 행동 표현 (action representation) 방식과 관계없이, 데이터의 규모와 다양성은 VLA 성능의 근간으로 남아 있습니다. Open X-Embodiment, Droid 및 BridgeData와 같은 이니셔티브는 다양한 작업, 환경 및 로봇 플랫폼에 걸쳐 대규모 시연 데이터 세트를 수집합니다. 특히 학습된 토크나이저 (learned tokenizers)의 경우, 합성 데이터 (synthetic data) 상에서 스케일링할 수 있는 능력은 실질적인 이점입니다. 연구에 따르면 행동 궤적 (action trajectories)은 시뮬레이션과 현실 사이의 도메인 격차 (domain gap)가 최소화되어 나타나며, 이는 합성 데이터가 실제 환경의 성능을 유의미하게 해치지 않으면서도 토크나이저를 학습시킬 수 있음을 의미합니다.

견고한 평가 지표 및 프로토콜 채택

평가 방법론 (Evaluation methodology)은 아키텍처만큼이나 중요합니다. 단순한 성공률 (success rates)을 넘어, 지표는 동작의 정밀도 (action precision), 궤적의 매끄러움 (trajectory smoothness), 그리고 새로운 환경에 대한 일반화 (generalisation) 능력을 포착해야 합니다. 실제 환경 테스트의 경우, 결과 평가에서의 편향 (bias)은 실질적인 위험 요소입니다. 실험자의 편향을 줄이기 위해 설계된 접근 방식 중 하나는, 운영자가 모델의 정체를 알 수 없게 하고 정책 실행 (policy execution)과 결과 판단을 분리하는 “그룹화된 블라인드 앙상블 프로토콜 (Grouped Blind Ensemble protocol)”이 있습니다. 엄격한 평가는 통제되지 않은 환경과의 접촉에서 살아남지 못하는 결과와 진정한 진보를 구분해 줍니다.

압축 격차 (compression gap)는 실질적인 아키텍처적 제약이며, 이는 왜 이산적 토큰화 (discrete-tokenization) VLA 모델에 더 나은 비전 인코더 (vision encoders)를 투입해도 실망스러운 결과가 나왔는지를 설명해 줍니다. 그 해결책들인 — 연속적 확산 정책 (continuous diffusion policies), 더 스마트한 학습된 토크나이저 (learned tokenizers), 그리고 추론과 제어를 서로 다른 하위 시스템을 통해 라우팅하는 하이브리드 아키텍처 (hybrid architectures) — 는 각각 복잡성, 연산량 (compute), 그리고 기존 VLM 인프라와의 호환성 측면에서 서로 다른 트레이드오프 (trade-offs)를 가집니다. 아직 단 하나의 정답은 없지만, 연구 방향은 명확합니다. 동작 표현 계층 (action representation layer)은 여기에 입력되는 비전 및 언어 구성 요소만큼이나 많은 엔지니어링적 주의를 기울여야 합니다. AI 칩 및 인프라에 대한 더 많은 내용을 보시려면, 저희의 AI Hardware 섹션을 방문해 주세요.

_원문 게시 위치: https://autonainews.com/how-to-overcome-discrete-tokenization-limits-in-vision-language-action-models/