arXiv논문2026. 06. 15. 07:41

예측을 실행 가능하게 만들기: World Action Models에서의 표현 정렬(Representation Alignment) 재용도화

요약

World Action Models(WAMs)에서 시각적 재구성과 동작 제어 간의 표현 불일치 문제를 해결하기 위한 AGRA 방법론을 제안합니다. 비디오 확산 특징을 의미론적 표현과 정렬하여 로봇 조작의 정확도와 일반화 성능을 높였습니다.

핵심 포인트

시각적 미래 생성과 정확한 동작 추출 사이의 불일치 발견
AGRA를 통한 비디오 확산 특징과 시각 인코더 표현의 정렬
작업 관련 상호작용 영역에 대한 동작 디코더의 집중도 향상
객체 위치 파악 및 어포던스 이해도 개선
분포 내 및 분포 외 환경에서의 로봇 조작 성능 강화

World Action Models (WAMs)는 제어 동작(control actions)을 생성하기 전에 비디오 생성 모델을 사용하여 미래 장면의 진화를 모델링함으로써 로봇 조작(robot manipulation)을 위한 유망한 경로를 제공합니다. 그러나 우리의 경험적 관찰은 한 가지 현상을 드러냅니다: 그럴듯한 시각적 미래를 생성하는 것이 항상 정확한 동작의 추출을 보장하지는 않는다는 점입니다. 이러한 실패를 진단하기 위해, 우리는 동작 헤드 어텐션(action-head attention) 분석과 인과적 개입(causal interventions)을 수행합니다. 우리는 동작 디코더(action decoder)가 작업 관련 상호작용 영역(task-relevant interaction regions)에 집중하지 못하고, 작업과 무관한 영역의 섭동(perturbations)에 계속 민감하게 반응한다는 것을 발견했습니다. 이는 표현 불일치(representation mismatch)를 드러냅니다: 시각적 재구성(visual reconstruction)을 위해 최적화된 은닉 상태(hidden states)가 저수준 동작 제어(low-level action control)에 유용한 형태로 본질적으로 조직되어 있지 않다는 것입니다. 본 논문에서 우리는 AGRA를 제안합니다. AGRA는 중간 비디오 확산 특징(intermediate video diffusion features)을 파운데이션 시각 인코더(foundation visual encoder)로부터 얻은 공간적으로 일관된 의미론적 표현(spatially coherent semantic representations)과 정렬함으로써 world-action 인터페이스를 정규화하는 동작 기반 표현 정렬(Action-Grounded Representation Alignment) 목적 함수입니다. 우리는 실제 환경의 조작 작업에서 AGRA를 평가합니다. 실험 결과, AGRA는 world model 표현을 더욱 동작 기반(action-grounded)으로 만듭니다. 동작 디코더가 올바른 상호작용 영역에 집중하게 함으로써, 객체 위치 파악(object localization) 정확도와 어포던스(affordance) 이해를 향상시키고, 작업과 무관한 영역의 섭동에 대해 정책(policy)을 더 견고하게 만듭니다. 결과적으로, AGRA는 베이스라인 world action model에 비해 분포 내(in-distribution) 성능과 분포 외(out-of-distribution) 일반화 성능을 모두 일관되게 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

예측을 실행 가능하게 만들기: World Action Models에서의 표현 정렬(Representation Alignment) 재용도화

요약

핵심 포인트

댓글