역기구학 (Inverse Kinematics)을 통한 주행 VLA의 그라운딩 (Grounding) 구현
요약
기존 주행 VLA 모델이 시각적 정보를 무시하고 자차 상태와 텍스트에만 의존하는 문제를 역기구학(Inverse Kinematics) 관점에서 재정의하고 해결책을 제시합니다. 미래 시각 상태 예측 목적 함수와 시각 정보 중심의 역기구학 네트워크를 도입하여, 0.5B 규모의 작은 모델로도 7B~8B 규모의 대형 모델과 대등한 궤적 계획 성능을 달성했습니다.
핵심 포인트
- 기존 VLA 모델의 시각적 정보 무시 현상은 구조적인 작업 공식화 문제임을 규명
- 미래 시각 장면을 예측하는 '다음 시각적 상태 예측' 목적 함수를 통해 시각적 감독 강화
- 현재와 미래의 시각적 상태만을 입력으로 사용하는 교차 주의 집중 기반 조건부 확산 모델 설계
- 0.5B 모델로 대형 모델(7B~8B) 수준의 궤적 계획 성능 및 시각적 그라운딩 능력 확보
- 회전 등 동적인 주행 상황에서 시각적 특징 활용 능력이 크게 개선됨
기존의 주행 VLA (Vision-Language-Action) 모델들은 궤적 (trajectory)을 예측하면서 시각적 토큰 (visual tokens)을 크게 무시하는 경향이 있는데, 우리는 이러한 현상이 학습 부족 때문이 아니라 구조적으로 부적절한 작업 공식화 (task formulation) 때문임을 밝혀냈습니다. 역기구학 (Inverse Kinematics)의 관점에서 볼 때, 궤적 복구 (trajectory recovery)를 위해서는 경계 조건 (boundary conditions)으로서 현재와 미래의 시각적 상태 (visual state)가 모두 필요합니다. 하지만 기존의 VLA는 전자의 정보만을 제공하며, 이는 모델이 자차 상태 (ego status)와 텍스트 명령 (text commands)에만 의존하여 지름길을 택하도록 유도합니다.
이를 해결하기 위해, 우리는 역기구학 솔버 (inverse kinematics solver) 스타일로 주행 VLA를 재설계했습니다. 첫째, LLM (Large Language Model)이 미래의 시각적 장면을 예측하도록 요구하는 '다음 시각적 상태 예측 (next visual state prediction)' 목적 함수를 도입하여 밀도 높은 시각적 감독 (visual supervision)을 제공하고 지름길 경로를 억제합니다. 둘째, 궤적 디코딩 (trajectory decoding) 과정에서 자차 상태 및 텍스트 지름길에 대한 의존도를 낮추기 위해, 오직 현재와 미래의 시각적 상태만을 입력으로 받는 별도의 역기구학 네트워크 (Inverse Kinematics Network, 교차 주의 집중 (cross-attention) 기반의 조건부 확산 모델 (conditional diffusion model))를 설계했습니다.
이러한 단순한 처방만으로도, 우리의 0.5B 규모 모델은 시각적 그라운딩 (visual grounding) 능력을 회복하였으며, 폐루프 (closed-loop) NAVSIM-v2 및 nuScenes 벤치마크 모두에서 10배 이상 더 큰 7B~8B 규모의 VLA와 대등한 궤적 계획 (trajectory planning) 성능을 달성했습니다. 광범위한 분석을 통해 이러한 개선이 시각적 특징 (visual features)을 활용하는 능력의 회복에서 비롯되었음을 확인하였으며, 그 효과는 회전과 같은 동적인 주행 상황에서 가장 두드러지게 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기