arXiv논문2026. 06. 03. 11:28

AURA: 일정한 VRAM 사용량을 유지하는 로봇 정책을 위한 액션 게이트 메모리 (Action-Gated Memory)

요약

AURA-Mem은 엣지 하드웨어의 제한된 메모리 환경을 위해 설계된 로봇 정책용 메모리 기술입니다. 액션 게이트를 통해 필요한 순간에만 정보를 기록함으로써, 일정한 VRAM 사용량을 유지하면서도 KV-cache 대비 쓰기 횟수를 획기적으로 줄입니다.

핵심 포인트

일정한 VRAM 사용량 유지로 엣지 디바이스 최적화
액션 변화가 있을 때만 기록하는 게이트 메커니즘 도입
KV-cache 대비 쓰기 횟수 최대 9.19배 감소
OpenVLA-OFT 7B 모델 적용 시 성능 유지 및 효율 증대

KV-cache (Key-Value cache)는 데이터센터에는 적합한 메모리이지만, 로봇에게는 잘못된 메모리입니다. 데이터센터 추론은 많은 수의 짧은 요청을 배치(batch)로 처리하고 이를 리셋함으로써, 수많은 요청에 걸쳐 어텐션 캐시 (attention cache)를 분할 amortize 합니다. 반면, Embodied agents (체화된 에이전트)는 대역폭이 제한된 엣지 하드웨어에서 리셋되지 않는 하나의 긴 에피소드를 실행하며, 이곳은 고대역폭 메모리 (high-bandwidth memory)와 플래시 (flash)가 부족하고, 플래시의 쓰기 내구도 (write endurance)가 유한하며, 연산보다는 메모리 쓰기가 제약 조건 (binding constraint)이 될 수 있는 환경입니다. AURA-Mem (Action-Utility Recurrent Adaptive Memory)은 이러한 환경을 목표로 합니다. 이 모델은 고정된 vision-language-action 백본을 일정한 크기의 순환 메모리 (recurrent memory)와 학습된 게이트 (gate)로 감쌉니다. 이 게이트는 현재의 관측 (observation)이 다음 액션 (action)을 변화시킬 때만 기록을 수행하며, 즉 언제 침묵해야 하는지를 아는 메모리입니다. 재구성 기반 메모리 (reconstruction-based memory)와 달리, 이 게이트는 폐루프 액션 오차 신호 (closed-loop action-error signal)에 대해 직접 학습됩니다. 추론 상태 (inference state)는 컨텍스트 길이 (horizon)에 관계없이 4,224 바이트로 고정되는 반면, KV-cache는 100,000 스텝에서 6,061배 더 커집니다. 통제된 합성 벤치마크 (synthetic benchmark)에서 AURA-Mem은 정확도 측면에서 최고의 $O(1)$ 베이스라인과 대등하면서도, 쓰기 횟수는 5.19~6.13배 적게 사용하며, 더 쉬운 설정에서는 최대 9.19배 적은 쓰기를 기록했습니다. 예산이 맞춰진 무작위 및 주기적 스케줄링은 이러한 이득을 회복하지 못했으며, 이는 이점이 액션 서프라이즈 신호 (action-surprise signal)에 국한됨을 보여줍니다. LIBERO-Long (암당 n=60 에피소드)에서 학습된 폐루프 OpenVLA-OFT 7B 패널에 적용했을 때, 게이트는 성공률을 저해하지 않았습니다. AURA-Mem은 게이트가 없는 기본 정책 (0.233)과 대등하고, 항상 기록하는 KV 방식 (0.217)을 약간 상회하면서도, 7.0배 적은 쓰기와 일정한 메모리 사용량을 보여주었습니다. 또한 방법론적 시연으로서 근사 정보 상태 가치 손실 경계 (approximate-information-state value-loss bound)를 구현하였으나, 이 규모에서는 해당 경계가 보증(guarantee)이라기보다는 공허한(vacuous) 수준입니다.

AI 자동 생성 콘텐츠

원문 바로가기

AURA: 일정한 VRAM 사용량을 유지하는 로봇 정책을 위한 액션 게이트 메모리 (Action-Gated Memory)

요약

핵심 포인트

댓글