arXiv논문2026. 06. 30. 13:01

에이전트 모호성 하에서의 인수분해된 전이 효과를 통한 잠재 행동 (Latent Actions from Factorized Transition

요약

에이전트의 움직임과 환경 변화가 혼재된 모호한 상황에서 잠재 행동을 효과적으로 학습하기 위한 OTF-LAM 모델을 제안합니다. 관측 전이를 희소한 프리미티브 세트로 분해하여 행동과 유사한 잠재 변수를 더욱 견고하게 추출합니다.

핵심 포인트

관측 전이를 분해하는 OTF(Observed Transition Factorization) 기술 소개
전이 효과를 구조화하여 행동과 환경 변화 간의 모호성 해결
DINOv2 표현 공간을 활용한 디코더 프리(decoder-free) 모델 제안
복잡한 환경에서도 제로샷 전이 및 우수한 하위 정책 학습 성능 입증

잠재 행동 모델 (Latent Action Models, LAMs)은 관측 전이 (observation transitions)로부터 행동과 유사한 대리 지표 (action-like proxies)를 학습합니다. 그러나 다중 객체 또는 방해 요소가 많은 장면에서는 이러한 시각적 효과가 에이전트의 움직임을 방해 요소, 카메라 역학 (camera dynamics), 배경 변화와 혼합시키기 때문에, 감독 (supervision) 없이는 근본적인 행동 소스를 파악하기 모호해집니다. 이러한 혼합을 재사용 가능한 전이 효과 (transition effects)로 구조화하면, 행동과 유사한 잠재 변수 (action-like latents)를 더욱 견고하게 형성할 수 있는 중간 표현 (intermediate representation)을 제공할 수 있습니다. 본 논문에서는 각 전이를 희소한 관측 전이 프리미티브 (sparse set of observed transition primitives) 세트로 분해하는 관측 전이 인수분해 (Observed Transition Factorization, OTF)를 소개합니다. 이러한 프리미티브를 전이 인터페이스 (transition interface)로 사용하여, 표준 역-순방향 역학 (inverse-forward dynamics) 프레임워크 내에서 운동 프리미티브 (motion primitives)를 행동과 유사한 잠재 변수로 추상화하는 OTF-LAM을 제안하며, 고정된 DINOv2 표현 공간 (representation space)에서 미래 상태를 예측하는 디코더 프리 (decoder-free) 변형 모델인 OTF-LAM-Dino를 제안합니다. 실증적으로, OTF 프리미티브는 제어된 캐리어 (carrier) 및 형태 (morphology) 변화 전반에 걸쳐 제로샷 (zeroshot) 전이가 가능함을 보여주며 재사용성을 입증했습니다. 또한, 하위 정책 학습 (downstream policy learning) 결과는 복잡한 전이 모호성 (transition ambiguity) 상황에서 베이스라인 (baselines)과 대등하거나 이를 능가하는 성능을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 모호성 하에서의 인수분해된 전이 효과를 통한 잠재 행동 (Latent Actions from Factorized Transition

요약

핵심 포인트

댓글