MolmoMotion: 언어 가이드 기반 3D 모션 예측 (3D motion forecasting)

기계는 움직임을 인지하는 데 있어 놀라울 정도로 뛰어나게 되었습니다. 비디오가 주어지면, 현대의 모델들은 객체와 지점들이 장면을 통해 어떻게 움직이는지를 매우 높은 신뢰도로 추적할 수 있습니다. 하지만 인지(Perception)는 본질적으로 회고적입니다. 즉, 이미 발생한 움직임을 설명할 뿐입니다. 우리가 구축하고자 하는 많은 시스템과 애플리케이션은 대신 앞을 내다보는(look forward) 기능이 필요합니다. 컵을 향해 손을 뻗는 로봇은 컵에 닿기 전에 컵이 어떻게 움직일지 예측해야 합니다. 비디오 생성기는 물리적으로 타당한 프레임을 생성하기 위해 다음에 어떤 현실적인 움직임이 올지 알아야 합니다.

움직임을 예측하는 것은 관찰하는 것보다 어렵지만, 많은 시나리오에서 훨씬 더 유용합니다.

이러한 아이디어는 오늘 우리가 출시하는 새로운 모션 예측(motion forecasting) 모델인 MolmoMotion의 동기가 되었습니다. 비디오 프레임, 객체에 표시된 3D 지점들, 그리고 의도된 동작을 설명하는 텍스트 지침(예: “테이블 위의 과일이 담긴 나무 그릇을 움직이고 회전시켜라”)이 주어지면, MolmoMotion은 해당 지점들이 향후 몇 초 동안 3D 공간에서 어디로 이동할지를 예측하며, 기존의 예측 방법들보다 실질적으로 더 강력한 성능을 달성합니다.

RGB 관측값, 객체 위의 쿼리 지점(query points) 세트, 그리고 동작 설명이 주어지면, MolmoMotion은 객체의 미래 3D 지점 궤적(3D point trajectory)을 예측합니다. 이렇게 예측된 궤적은 로보틱스 계획(robotics planning) 및 궤적 조건부 비디오 생성(trajectory-conditioned video generation)과 같은 다운스트림 애플리케이션을 구동할 수 있습니다.

모델과 함께, 우리는 116만 개의 비디오에서 추출하여 동작 설명과 쌍을 이룬 가장 큰 3D 지점 궤적 컬렉션인 MolmoMotion-1M을 공개합니다. 또한, 2,700개의 비디오 클립을 포함하며 객체 중심의 3D 모션 예측 정확도를 측정하기 위해 설계된 인간 검증 벤치마크인 PointMotionBench도 함께 출시합니다.

우리는 MolmoMotion과 같은 모션 예측기 (motion forecaster)가 로봇 계획 (robot planning)부터 제어 가능한 비디오 생성 (controllable video generation)에 이르기까지 다양한 다운스트림 태스크 (downstream tasks)에서 유용하게 사용될 수 있음을 확인했습니다. 우리는 커뮤니티가 이를 연구하고, 개선하며, 맞춤화할 수 있도록 모델 가중치 (model weights), MolmoMotion-1M 데이터셋, 그리고 PointMotionBench 벤치마크를 공개합니다.

MolmoMotion은 의도적이고 매우 효율적인 방식으로 모션을 표현합니다. 즉, 전체 비디오를 렌더링하는 비용 없이 모션을 포착하는 월드 공간 (world space) 내 객체 부착 3D 포인트 (object-attached 3D points)로 표현합니다. 우리가 이 방식을 선택한 이유는 다음과 같은 세 가지 속성을 가진 범용적인 모션 표현 (motion representation)이 필요했기 때문입니다:

클래스 불가지론적 (Class-agnostic): 인간의 신체, 손, 강체 객체 (rigid objects) 또는 기타 고정된 카테고리를 위한 템플릿에 얽매이지 않습니다.
뷰 안정성 (View-stable): 동일한 물리적 모션은 카메라와 시점(viewpoint)에 관계없이 일관되게 표현되어야 합니다.
물리적 모션에 대한 추론이 필요한 다운스트림 시스템에서 직접 사용 가능해야 합니다.

우리가 고려한 표현 방식들 중에서, 이 방식만이 세 가지 조건을 모두 충족했습니다. 희소한 표면 포인트 (sparse set of surface points) 집합은 움직이는 객체의 유형을 가정하지 않고도 강체 (rigid), 관절형 (articulated), 그리고 (제한적이지만) 변형 가능한 (deformable) 모션을 설명할 수 있습니다. 포인트들이 공유된 월드 프레임 (world frame)에 존재하기 때문에, 카메라의 움직임이나 시점 변화에도 궤적 (trajectories)이 안정적으로 유지됩니다. 또한, 이들은 3D 공간에서의 압축된 명시적 궤적 (compact explicit trajectories)이므로 로봇 정책 (robot policies)이나 비디오 생성 모델과 같은 시스템에 직접 전달될 수 있습니다.

이러한 궤적을 예측하기 위해, MolmoMotion은 Molmo 2를 백본 (backbone)으로 사용하여 언어 지시 사항 (language instructions)을 이미지 내의 객체 및 포인트와 연결할 수 있게 합니다. 짧은 비디오 이력 (video history), 동작 설명 (action description), 그리고 초기 3D 위치를 가진 쿼리 포인트 (query points) 세트가 주어지면, 모델은 먼저 언급된 객체, 쿼리 포인트, 그리고 지시 사항이 설명하는 모션을 식별합니다. 그런 다음 각 포인트의 미래 3D 궤적을 예측합니다.

우리는 두 가지 변형된 MolmoMotion을 학습시킵니다:

자기회귀 변형 (autoregressive variant, MolmoMotion-AR)은 미래 좌표를 단계별로 예측합니다. 이는 VLM (Vision-Language Models)에서 사용되는 좌표 스타일 예측을 따라 3D 좌표를 구조화된 텍스트로 표현하며, 미래 궤적을 시간 순서대로 작성합니다. 각 새로운 좌표가 이미 생성된 궤적을 조건으로 하기 때문에, 이는 매끄러운 롤아웃 (rollout)을 촉진하며 미래 경로가 명확하게 정의된 경우 가장 강력한 정확도를 제공합니다.
플로우 매칭 변형 (flow-matching variant, MolmoMotion-FM)은 노이즈를 모션으로 변환함으로써 연속적인 3D 공간에서 궤적을 예측합니다. 이는 지시어가 여러 가지 가능한 미래를 허용할 때 불확실성 (uncertainty)을 표현하기에 더 적합합니다.

MolmoMotion 아키텍처. Molmo 2 백본 (backbone)에 대한 공유 입력은 RGB 관측값의 이미지 토큰 (image tokens), 동작 설명의 텍스트 토큰 (text tokens), 그리고 Molmo 2 비전 인코더 (vision encoder)에서 샘플링된 2D 쿼리 포인트 특징 토큰 (2D query point feature tokens)으로 구성됩니다. MolmoMotion-AR은 초기 3D 쿼리 좌표를 인코딩하고 미래 궤적을 양자화된 좌표 텍스트로 디코딩하는 반면, MolmoMotion-FM은 이를 연속적인 3D 좌표 공간에서 직접 표현합니다.

MolmoMotion을 학습시키기 위해서는 아직 존재하지 않는 데이터, 즉 특정 객체에 기반한 3D 포인트 궤적(3D point trajectories)이 포함되어 있고 동작 설명과 쌍을 이루는 대규모 비디오 데이터가 필요했습니다. 기존의 3D 트래킹 (3D-track) 데이터셋은 규모가 작고 도메인이 제한적이었으며, 인터넷 비디오는 MolmoMotion과 같은 예측기 (forecaster)에 필요한 규모와 다양성을 모두 갖추고 있었지만 3D 어노테이션 (3D annotations)이 포함되어 있지 않았습니다. 따라서 우리는 제약 없는 비디오에서 객체 기반 3D 궤적을 추출하는 자동 파이프라인을 구축했습니다.

입력 비디오와 그 동작 설명이 주어지면, 우리의 어노테이션 (annotation) 파이프라인은 미터법 세계 좌표계 (metric world coordinates) 상에서 객체에 기반한 3D 포인트 궤적 (3D point trajectories)을 생성합니다. (아래 그림은 각 단계를 보여줍니다.) 어려운 점은 제약 없는 비디오에서 얻은 가공되지 않은 트랙 (raw tracks)이 노이즈가 많다는 것입니다. 즉, 깊이 (depth) 및 트래킹 (tracking) 오류로 인해 포인트들이 떨리거나 (jittering) 표류 (drifting)하게 되며, 객체가 비디오의 상당 부분 동안 정지해 있는 경우가 많습니다. 데이터를 더 신뢰할 수 있게 만들기 위해, 우리는 객체의 나머지 부분과 일관되게 움직이지 않는 포인트들을 필터링하고, 남은 궤적들을 매끄럽게 다듬으며 (smooth), 객체가 실제로 움직이는 구간으로 각 클립을 세그먼트 (segment) 합니다.

우리의 파이프라인을 대규모로 실행하여 MolmoMotion-1M을 구축했습니다. 이는 우리가 알기로 현재까지 구축된 것 중 동작이 설명되고 객체에 기반한 3D 포인트 궤적을 포함하는 가장 큰 코퍼스 (corpus)로, 736가지의 동작 유형과 5,600개의 고유 객체를 아우릅니다.

우리의 데이터 어노테이션 (annotation) 파이프라인 개요. 동작 이벤트 비디오와 그 설명이 주어지면, 우리는 먼저 움직이는 객체를 그라운딩 (grounding)하고 그 위의 쿼리 포인트 (query points)를 샘플링합니다. 그런 다음 객체 위의 조밀한 2D 포인트들을 트래킹하고, 이 트랙들을 공유된 미터법 3D 프레임 (metric 3D frame)으로 리프트 (lift) 하며, 객체 수준의 공간적 및 시간적 일관성 사전 정보 (spatial and temporal consistency priors)를 사용하여 신뢰할 수 없는 궤적들을 필터링합니다. 마지막으로, 그라운딩된 객체가 의미 있는 움직임을 보이는 구간을 중심으로 비디오를 클립 (clip) 합니다.

상단 지시어: "테이블 위의 과일이 담긴 나무 그릇을 움직이고 회전시킨다." 하단 지시어: "파란 천 위에서 찍찍이(lint roller)를 굴린다."

상단 지시어: "은색 자동차가 도로를 따라가다가 천천히 오른쪽으로 회전한다." 하단 지시어: "플라밍고가 오른쪽으로 걸어가면서 부리를 물속에 담근다."

MolmoMotion의 예측 성능을 평가하기 위해, 우리는 별도로 분리된 3D 궤적(trajectories)을 인간이 검증한 벤치마크인 PointMotionBench를 구축했습니다. 이는 실내 조작(indoor manipulation), 1인칭 시점의 손-물체 상호작용(egocentric hand-object interaction), 실외 동적 장면(outdoor dynamic scenes)을 포함하여 111개의 물체 카테고리와 61개의 동작 유형에 걸친 2,700개의 클립을 다룹니다. 각 클립에 대해 모델은 현재 관측값(observation), 물체 쿼리 포인트(object query points), 그리고 동작 설명(action description)을 제공받으며, 모델이 예측한 3D 포인트 궤적이 물체의 실제 미래 동작과 얼마나 정확하게 일치하는지를 기준으로 평가됩니다. 이를 통해 생성된 포인트 트랙(point track)이 단순히 그럴듯해 보이는지에 의존하는 대신, 3D 모션 예측(3D motion forecasting)에 대한 직접적인 정량적 테스트를 수행할 수 있습니다.

우리는 세 가지 방식으로 MolmoMotion을 평가합니다. 첫째, 기존 방법들보다 미래의 3D 동작을 더 정확하게 예측하는지 테스트합니다. 둘째, 모델이 학습한 동작 정보가 로봇의 조작(manipulation) 작업을 수행하는 데 도움이 되는지 테스트합니다. 셋째, 동일한 지식이 생성된 비디오의 동작을 가이드하는 데 도움이 될 수 있는지 테스트합니다.

PointMotionBench에서 MolmoMotion은 픽셀 공간 비디오 생성기(pixel-space video generators), 파라메트릭 3D 방법(parametric 3D methods), 그리고 단순 등속도 베이스라인(constant-velocity baseline)을 포함하여 우리가 테스트한 모든 기존 3D 모션 예측 방법들을 다양한 물체, 장면 및 동작에 대해 능가합니다.

MolmoMotion은 옷 위에서 돌돌이(lint roller)가 앞뒤로 움직이는 방식, 테이블 위에서 그릇이 미끄러지며 회전하는 방식, 플라밍고가 부리를 물속에 담근 채 오른쪽으로 걸어가는 방식, 또는 자동차가 회전하며 도로를 따라가는 방식과 같이 다양한 종류의 물체 및 장면 동작을 예측할 수 있습니다. 각 경우에서 예측된 경로는 MolmoMotion에 주어진 지시를 따르며, 우리 벤치마크의 실제 정답(ground truth) 동작과 매우 밀접하게 유지됩니다.

MolmoMotion이 동작에 대해 학습한 내용은 한 설정에서 다른 설정으로 전이되어야 합니다. 인간의 손으로 컵을 들어 올리는 것과 로봇 그리퍼(gripper)로 들어 올리는 것은 매우 다른 동작이지만, 컵 자체는 3D 공간에서 유사한 경로를 따릅니다. 이러한 특성 덕분에 MolmoMotion은 로봇이 물체를 움직이기 전에 물체가 어떻게 움직여야 하는지를 계획해야 하는 로보틱스(robotics) 분야에 자연스럽게 부합합니다.

실제 세계의 로봇 조작(robot manipulation) 영상이 담긴 대규모 오픈 데이터셋인 DROID에서 미세 조정(fine-tuning)을 거친 후, 우리는 MolmoMotion이 광범위한 로봇 계획 시나리오에 대해 서로 다른 물체, 카메라 시점, 장면 및 작업에 걸쳐 합리적인 물체 경로를 예측할 수 있음을 확인했습니다.

상단 지시어: “컨테이너에서 천을 꺼내세요.” 하단 지시어: “냄비의 뚜껑을 움직이세요.”

시뮬레이션에서 MolmoMotion을 기반으로 구축된 제어 정책(control policy)은 픽 앤 플레이스(pick-and-place) 작업의 76.3%를 성공시킨 반면, Molmo 2를 기반으로 구축된 동일한 정책은 56.0%를 기록했습니다. 또한 MolmoMotion은 더 빠르게 학습하여, Molmo 2 버전이 19%에서 정체될 때 10K 학습 단계(training steps) 만에 51%에 도달했습니다. 실제 로봇(미세 조정 후)의 경우, MolmoMotion은 Molmo 2 베이스라인이 12K 학습 단계 후에 달성하는 것과 동일한 테스트 L2 오차(L2 error)를 단 약 2K 단계 만에 달성합니다.

지시어: “플라밍고가 오른쪽으로 걸어가면서 부리를 물속에 담급니다.” 위에서 아래로: DaS + MolmoMotion, CogVideoX-5B, 그리고 WAN-14B.

지시어: “테이블에서 둥글고 밝은 갈색 접시를 가져오세요.” 위에서 아래로: DaS + MolmoMotion, CogVideoX-5B, 그리고 WAN-14B.

MolmoMotion이 예측한 경로는 비디오 생성(video generation)을 유도할 수도 있습니다. 이미지-투-비디오(image-to-video) 모델이 텍스트 지시어만으로 동작을 추측하게 두는 대신, MolmoMotion의 예측값을 입력할 수 있습니다. 그 결과, 특히 프롬프트(prompt)로는 모호하게만 설명할 수 있는 작고 정밀한 움직임에 대해 요청된 동작을 더 밀접하게 따르는 생성 비디오를 얻을 수 있습니다.

지표들이 이를 뒷받침합니다. 비디오 생성기를 가이드하는 데 사용되었을 때, MolmoMotion은 우리가 측정하는 5가지 동작 관련 지표 모두에서 베이스 모델보다 동작 품질을 향상시켰으며, 5가지 중 4가지 지표에서 훨씬 더 큰 규모의 이미지-투-비디오 모델을 능가했습니다.

MolmoMotion은 유능한 모델이지만, 여전히 주목해야 할 몇 가지 한계점이 있습니다. 이 모델은 학습 과정에서 객체당 8개의 쿼리 포인트 (query points)를 사용하는데, 이는 유용한 궤적 (trajectory)을 예측하기에는 충분하지만 표면 기하학 (surface geometry)을 조밀하게 표현하기에는 부족합니다. 이로 인해 복잡한 변형 가능한 움직임 (deformable motion)을 처리하는 데 한계가 있습니다.

우리는 예측 (forecasting) — 즉, 세상의 객체들이 움직이기 전에 어떻게 움직일지 예상하는 것 — 이 이미 존재하는 것을 인지하는 것만큼이나 기계 지능 (machine intelligence)에 근본적인 요소라고 생각합니다. MolmoMotion은 이를 향한 하나의 단계입니다. 이는 카테고리별 템플릿 없이 객체 카테고리를 가로질러 일반화되는 3D 모션 예측이며, 일반적인 비디오로부터 학습되었고, 우리가 PointMotionBench에서 측정한 가장 정확한 3D 모션 예측기입니다. 우리는 로보틱스 (robotics), 비디오, 그리고 그 이상의 분야에서 많은 응용 사례가 뒤따를 것으로 기대합니다.

가중치 (weights)를 다운로드하고, 학습 데이터를 조사하며, PointMotionBench를 통해 우리의 방법론을 평가함으로써 MolmoMotion을 직접 시도해 보시기를 권장합니다.

MolmoMotion: 언어 가이드 기반 3D 모션 예측 (3D motion forecasting)

요약

핵심 포인트

댓글