arXiv논문2026. 06. 12. 16:15

MaskWAM: 마스크 프롬프팅과 예측을 통합하여 월드 액션 모델(World-Action Models)의 성능을 향상시키다

요약

본 논문은 로봇 제어를 위한 비디오 예측 패러다임인 World Action Models (WAMs)의 한계를 극복한 MaskWAM을 제안합니다. MaskWAM은 마스크를 명시적 입력이자 예측으로 통합하여 객체 중심의 의미론적 감독을 제공함으로써, 기존 WAM의 공간적 병목 현상과 참조 모호성을 개선했습니다.

핵심 포인트

MaskWAM은 마스크를 통해 객체 중심의 의미론적 감독을 제공합니다.
마스크 예측은 시각적 노이즈를 억제하고 정책 일반화를 향상시킵니다.
언어적/공간적 프롬프트를 결합하여 모호성을 줄이고 정밀한 안내를 구축했습니다.

월드 액션 모델(World Action Models, WAMs)은 비디오 예측을 통해 로봇 제어를 위한 유망한 패러다임을 제시합니다. 하지만 현재의 WAM들은 근본적인 공간적 병목 현상을 겪고 있습니다. 표준 텍스트 입력은 복잡한 장면에서 참조 모호성(referential ambiguity)을 야기하며, 비정형 RGB 예측은 의미론적 접지(semantic grounding)가 부족하고 작업과 무관한 배경에 의해 편향되는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 객체 중심의 월드 액션 모델인 MaskWAM을 소개합니다. MaskWAM은 통합된 Mixture of Transformers (MoT)를 통해 마스크를 명시적 입력이자 예측으로 공동 통합함으로써 강력한 정책 일반화(policy generalization)를 구현합니다. 이 설계는 두 가지 주요 이점을 제공합니다: (1) 미래의 마스크를 예측하는 것은 객체 중심의 의미론적 감독(semantic supervision)을 제공하여 시각적 노이즈를 억제하고, 표준 텍스트 조건부 WAMs조차도 크게 향상시킵니다. 그리고 (2) 이러한 예측적 감독을 타겟 객체 마스크와 같은 첫 프레임 시각적 프롬프트와 결합함으로써 언어 모호성을 상당히 줄이는 정밀한 공간적 앵커를 확립합니다. 결정적으로, WAMs가 본질적으로 비전 기반 아키텍처이기 때문에, 직접적인 마스크 조건화는 텍스트만 사용하는 것보다 훨씬 강력한 안내(guidance)를 제공하여, 보지 못한 객체를 조작하기 위한 정밀하고 견고한 패러다임을 구축합니다. LIBERO, RoboTwin 및 실제 환경 작업에 대한 평가 결과는 MaskWAM이 언어적으로 명확하거나 모호한 작업 모두에서 기존의 기준 모델들보다 현저히 우수함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MaskWAM: 마스크 프롬프팅과 예측을 통합하여 월드 액션 모델(World-Action Models)의 성능을 향상시키다

요약

핵심 포인트

댓글