ACID: 월드 모델을 이용한 계획 수립을 위한 역역학 기반의 행동 일관성 (Action Consistency via Inverse

행동 조건부 월드 모델 (Action-conditioned world models)을 이용한 의사결정 시점 계획 수립 (Decision-time planning)은 체화된 제어 (Embodied control)를 위한 대중적인 패러다임이 되었습니다. 그러나 표준적인 계획 비용 (Planning cost)은 후보를 예측된 최종 상태가 목표에 얼마나 가까운지만으로 판단하며, 중간 전이 (Intermediate transitions)의 실현 가능성 (Realizability)은 확인하지 않습니다. 즉, 예측된 궤적 (Trajectory)은 그럴듯해 보일 수 있지만, 환경 롤아웃 (Environment rollout)은 그로부터 벗어날 수 있습니다. 본 논문에서는 순환 행동 일관성 (Cycle action consistency)을 도입하는 의사결정 시점 계획 수립 프레임워크인 ACID를 제안합니다. 순환 행동 일관성이란, 역역학 모델 (Inverse dynamics model)에 의해 예측된 전이로부터 역으로 추론된 행동이 원래 조건으로 주어졌던 행동을 복구해야 함을 의미합니다. 우리는 이러한 단계별 잔차 (Per-step residual)를 스케일 불변 적응형 가중치 (Scale-invariant adaptive weight)를 통해 계획 비용에 통합합니다. 강체 및 변형 가능한 조작 (Rigid and deformable manipulation), 관절 제어 (Articulated control), 시각적 내비게이션 (Visual navigation)을 아우르는 6가지 작업과 4가지 행동 조건부 월드 모델에 대해 실험한 결과, ACID는 계획 성능을 일관되게 향상시켰으며, 기준 모델 (Baseline)과 유사한 정확도를 훨씬 적은 계획 연산량 (Planning compute)으로 달성했습니다.

Insights

ACID: 월드 모델을 이용한 계획 수립을 위한 역역학 기반의 행동 일관성 (Action Consistency via Inverse

요약

핵심 포인트

댓글

RAG 코드 검색 정확도를 55%에서 95%로 높인 방법

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시

동일한 공포, 다른 결과: 금과 원유의 엇갈리는 폭락

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시

동일한 공포, 다른 결과: 금과 원유의 엇갈리는 폭락