arXiv논문2026. 05. 19. 17:22

실행 가능한 세계 표현 (Actionable World Representation)

요약

본 논문은 물리적 세계를 모델링하기 위해 객체의 상태를 명시적으로 표현하는 'WorldString'이라는 새로운 신경망 구조를 제안합니다. WorldString은 포인트 클라우드나 RGB-D 비디오 스트림을 통해 객체의 상태 매니폴드를 학습하며, 디지털 트윈으로서 물리적 세계 모델의 핵심 빌딩 블록 역할을 수행합니다. 또한, 모델이 완전 미분 가능한 구조를 가져 향후 정책 학습 및 신경 역학과의 통합이 용이합니다.

핵심 포인트

물리적 세계의 기본 단위인 객체를 실행 가능한 엔티티로 모델링하는 방법론 제안
포인트 클라우드 및 RGB-D 비디오 스트림으로부터 직접 객체의 상태 매니폴드 학습 가능
디지털 트윈 역할을 수행하는 물리적 세계 모델의 기초 빌딩 블록으로서의 기능
완전 미분 가능한(fully differentiable) 구조를 통한 정책 학습 및 신경 역학과의 통합 지원

인간의 지능을 일반화한 대규모 언어 모델 (Large Language Models)에서 나타난 창발적 행동 (emergent behaviors)에 영감을 받아, 연구 커뮤니티는 물리적 세계를 모델링하는 데 중점을 두며 월드 모델 (world models) 내에서 유사한 창발적 능력을 추구하고 있습니다. 물리적 세계 모델의 범위 내에서, 객체 (objects)는 물리적 실체를 구성하는 근본적인 기본 단위 (primitives)입니다. 인간부터 컴퓨터에 이르기까지, 우리가 상호작용하는 거의 모든 것은 객체입니다. 이러한 객체들은 정적인 경우가 드물며, 고유한 속성에 의해 결정되는 다양한 상태를 가진 실행 가능한 엔티티 (actionable entities)입니다. 현재의 방법론들은 비디오 생성 (video generation) 또는 동적 장면 재구성 (dynamic scene reconstruction)을 통해 객체의 행동 상태에 접근하고 있지만, 실행 가능한 객체 표현 (actionable object representation)을 구축하기 위해 이 기본 요소를 통합적이고 원칙적인 방식으로 명시적으로 모델링하는 방법은 아직 없습니다. 우리는 포인트 클라우드 (point clouds) 또는 RGB-D 비디오 스트림으로부터 직접 학습함으로써 실제 세계 객체의 상태 매니폴드 (state manifold)를 모델링할 수 있는 신경망 구조 (neural architecture)인 WorldString을 제안합니다. 다재다능한 디지털 트윈 (digital twin) 역할을 수행하는 이것은 물리적 세계 모델을 위한 기초적인 빌딩 블록 (building block)으로 기능하며, 이에 따라 우리는 이를 WorldString이라 명명했습니다. 또한, 이 모델의 완전 미분 가능한 (fully differentiable) 구조는 향후 정책 학습 (policy learning) 및 신경 역학 (neural dynamics)과의 원활한 통합을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

실행 가능한 세계 표현 (Actionable World Representation)

요약

핵심 포인트

댓글