본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 11:20

장기 컨텍스트 자율 주행을 위한 계획 정렬형 토큰 압축 (Planning-aligned Token Compression for

요약

자율 주행 비전-액션 모델의 긴 컨텍스트 처리를 위해 계획 의도에 정렬된 토큰 압축 프레임워크인 COMPACT-VA를 제안합니다. VQ-VAE를 활용해 과거 궤적과 계획 의도를 결합하여 압축함으로써, 정보 손실을 최소화하고 계산 효율성을 극대화합니다.

핵심 포인트

  • 계획 의도와 과거 궤적을 조건으로 하는 토큰 압축 방식 제안
  • 기존 방식 대비 성공률 6% 이상 향상 달성
  • 압축되지 않은 방식 대비 3.3배 속도 향상 및 2.7배 메모리 감소
  • 백본 수정 없이 적용 가능한 높은 아키텍처 호환성

단일 구조의 비전-액션 모델 (Monolithic vision-action models)은 자율 주행 분야에서 떠오르는 패러다임입니다. 그러나 이러한 아키텍처는 복잡한 상호작용을 위해 확장된 시간적 컨텍스트 (Temporal context)를 인코딩할 때, 실시간 계산 예산을 빠르게 초과하는 토큰 시퀀스를 생성합니다. 선형 트랜스포머 (Linear transformers)나 외부 메모리 (External memory)와 같은 접근 방식들이 컨텍스트를 경량화하려고 시도하지만, 토큰 압축 (Token compression)은 백본 (Backbone) 수정이 필요하지 않기 때문에 해당 아키텍처와 가장 호환성이 높습니다. 하지만 기존의 압축 방식은 시간적 감쇠 (Temporal decay)와 같은 규칙 기반 휴리스틱 (Rule-based heuristics)을 채택하고 있어 계획 (Planning)과 분리되어 있으며, 의사 결정에 중요한 정보가 손실될 위험이 있습니다.

우리는 조건부 VQ-VAE (Conditional VQ-VAE)를 기반으로 구축되어 확장된 컨텍스트를 제한된 표현 (Bounded representations)으로 압축하는 계획 정렬형 작업 메모리 프레임워크인 COMPACT-VA를 제안합니다. 압축은 과거의 궤적 (Historical trajectory)과 학습된 계획 의도 (Planning intent) 모두에 조건화됩니다. 이 계획 의도는 사후 인코더 (Posterior encoder)가 훈련 중에 미래 궤적으로부터 증류 (Distill)하며, 사전 인코더 (Prior encoder)는 압축된 관측값으로부터 이를 예측하는 법을 학습합니다. 예측된 잠재 변수 (Latent)와 결합된 압축된 메모리는 엔드 투 엔드 최적화 (End-to-end optimization)를 위해 정책 (Policy)에 입력되며, 유지된 의사 결정 핵심 정보를 바탕으로 계획을 수행합니다.

우리는 과거 컨텍스트가 행동의 정확성(예: 정지, 양보 또는 진행)에 가장 결정적인 고신호 동적 시나리오 (High-signal dynamic scenarios)에서 평가를 수행하였으며, 이에 따라 행동 지표 (Behavioral metrics)를 설계했습니다. 유사한 토큰 예산 하에서, 우리는 성공률에서 6% 이상의 향상(68.3%)을 달성하였으며 모든 지표에서 일관된 이득을 보였습니다. 절제 연구 (Ablations)를 통해 계획 정렬형 결합 (Planning-aligned coupling)의 효과를 검증했습니다. 폐루프 평가 (Closed-loop evaluation) 결과, COMPACT-VA는 압축되지 않은 처리 방식 대비 3.3배의 속도 향상과 2.7배의 메모리 감소를 보이면서도 일반적인 주행 성능을 유지함을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0