본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:32

AttenA+: 로봇 파운데이션 모델 (Robotic Foundation Models)에서의 행동 불균형 교정

요약

기존의 로봇 파운데이션 모델은 모든 행동 구간을 균일하게 취급하는 시간적 균질성 가정을 기반으로 하여, 조작 작업의 물리적 계층 구조를 반영하지 못해 성능에 한계가 있었습니다. AttenA+는 속도 기반 행동 주의(velocity-driven action attention)를 도입하여 운동학적으로 중요한 구간에 학습 우선순위를 부여하는 프레임워크입니다. 이는 역속도장(inverse velocity field)을 통해 물리적 중요도를 반영함으로써, 기존의 VLA 및 WAM 모델의 성능을 향상시키고 로봇 제어의 새로운 방향을 제시합니다.

핵심 포인트

  • 로봇 파운데이션 모델은 시간적 균질성 가정으로 인해 조작 작업의 이질적인 물리 구조를 간과하는 한계가 있습니다.
  • AttenA+는 속도 기반 행동 주의(velocity-driven action attention)를 통해 운동학적으로 중요한 구간에 가중치를 부여합니다.
  • 이 프레임워크는 역속도장(inverse velocity field)을 학습 목표 재가중화에 활용하여 물리적 중요도를 모델링합니다.
  • AttenA+는 플러그 앤 플레이 방식으로 기존 백본에 쉽게 통합할 수 있는 구조입니다.
  • 실제 실험에서 OpenVLA-OFT 및 FastWAM 등 최첨단 모델의 성능 향상과 로봇 환경에서의 견고성을 입증했습니다.

기존의 로봇 파운데이션 모델 (Robotic Foundation Models)은 강력하지만, 모든 행동을 최적화 과정에서 동일하게 정보가 있는 것으로 취급하는 시간적 균질성 (temporal homogeneity)이라는 암묵적인 가정에 근거하고 있습니다. 언어 모델링 (language modeling)에서 계승된 이러한 "평면적 (flat)" 학습 패러다임은 조작 (manipulation)의 근본적인 물리적 계층 구조를 고려하지 않습니다. 실제로 로봇의 궤적 (trajectories)은 근본적으로 이질적 (heterogeneous)이며, 저속 구간은 정밀도를 요구하는 상호작용을 통해 작업 성공을 결정짓는 경우가 많은 반면, 고속 동작은 오차 허용 범위가 넓은 전이 (transitions) 역할을 합니다. 균일한 손실 가중치 (loss weighting)와 물리적 중요도 (physical criticality) 사이의 이러한 불일치는 복잡하고 긴 호흡의 작업 (long-horizon tasks)에서 현재의 시각-언어-행동 (Vision-Language-Action, VLA) 모델과 월드-행동 모델 (World-Action Models, WAM)의 성능을 근본적으로 제한합니다.

이를 교정하기 위해, 우리는 속도 기반 행동 주의 (velocity-driven action attention)를 통해 운동학적으로 중요한 구간 (kinematically critical segments)에 우선순위를 두는 구조 불가지론적 (architecture-agnostic) 프레임워크인 AttenA+를 소개합니다. 역속도장 (inverse velocity field)을 기반으로 학습 목표를 재가중함으로써, AttenA+는 모델의 학습 능력을 조작의 물리적 요구 사항과 자연스럽게 일치시킵니다. 플러그 앤 플레이 (plug-and-play) 방식의 향상 도구로서, AttenA+는 구조적 수정이나 추가 파라미터 없이 기존의 백본 (backbones)에 통합될 수 있습니다.

광범위한 실험을 통해 AttenA+가 현재의 최첨단 (state-of-the-art) 모델들의 성능 한계를 크게 높인다는 것을 입증했습니다. 구체적으로, Libero 벤치마크에서 OpenVLA-OFT를 98.6% (+1.5%)로 향상시켰으며, RoboTwin 2.0에서 FastWAM을 92.4% (+0.6%)로 끌어올렸습니다. Franka 매니퓰레이터 (manipulator)를 이용한 실제 환경 검증은 이 모델의 견고함 (robustness)과 교차 작업 일반화 (cross-task generalization) 능력을 더욱 보여줍니다. 우리의 연구는 행동 시퀀스의 내재적 구조적 사전 정보 (intrinsic structural priors)를 발굴하는 것이 표준 스케일링 법칙 (scaling laws)에 대한 매우 효율적이고 물리 인지적인 (physics-aware) 보완책이 될 수 있음을 시사하며, 범용 로봇 제어를 위한 새로운 길을 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0