본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 11:38

Monte Carlo Tree Search를 활용한 계획 수립을 위한 인과적 객체 중심 모델

요약

COMET은 슬롯 구조화된 잠재 공간에서 몬테카를로 트리 탐색(MCTS)을 수행하는 새로운 모델 기반 강화학습 알고리즘입니다. 트랜스포머 기반 월드 모델과 객체-인과 어텐션을 결합하여 작업 관련 엔티티에 집중된 의사결정을 가능하게 합니다.

핵심 포인트

  • 슬롯 구조화된 잠재 공간 내 MCTS 수행
  • 행동-슬롯 융합 메커니즘을 통한 객체 결합
  • 객체-인과 어텐션으로 작업 관련 엔티티 집중
  • ManiSkill, Robosuite 등 벤치마크에서 우수한 성능 입증

우리는 슬롯 구조화된 잠재 공간 (slot-structured latent space)에서 몬테카를로 트리 탐색 (Monte Carlo Tree Search)을 수행하는 모델 기반 강화학습 (model-based reinforcement learning) 알고리즘인 COMET (Causal Object-centric Model for Efficient Tree search)을 소개합니다. COMET은 동결된 비지도 객체 중심 인코더 (unsupervised object-centric encoder)와 트랜스포머 (transformer) 기반의 월드 모델 (world model)을 결합하며, 이 월드 모델 내에서 행동 (actions)은 슬롯 전이 예측 (slot transition prediction)에 사용되는 새로운 행동-슬롯 융합 메커니즘 (action-slot fusion mechanism)을 통해 객체에 결합됩니다. 정책 (Policy) 및 가치 (value) 헤드는 객체-인과 어텐션 (object-causal attention)을 사용하여, 학습된 슬롯별 관련성 점수 (per-slot relevance scores)를 통해 토큰 상호작용을 조절함으로써 의사결정이 작업 관련 엔티티 (task-relevant entities)에 집중되도록 합니다. COMET은 MuZero 스타일의 잠재 계획 (latent planning)에 명시적인 객체 수준의 귀납적 편향 (object-level inductive bias)을 추가합니다. Object-Centric Visual RL 벤치마크인 ManiSkill, Robosuite, VizDoom에서 추출한 시각적 및 동적으로 다양한 8가지 작업에 대해, COMET은 객체 중심 (object-centric) 및 단일 구조 (monolithic) 베이스라인과 비교하여 훈련 초기 단계 동안 더 높은 평균 정규화 점수 (mean normalized score)를 달성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0