r/LocalLLaMA분석2026. 06. 21. 13:43

AllenAI, 짧은 프레임 이력을 기반으로 미래 움직임을 예측하는 MolmoMotion 비전 모델 출시

요약

AllenAI가 자연어 지침을 바탕으로 3D 포인트 궤적을 예측하는 MolmoMotion 비전-언어 모델을 출시했습니다. 짧은 RGB 관측 이력을 통해 미래의 3D 공간 내 객체 이동을 예측하는 것이 특징입니다.

핵심 포인트

자연어 동작 지침에 따른 3D 포인트 궤적 예측 가능
4B 파라미터 규모의 비전-언어 모델(VLM) 기반
1개 또는 3개의 짧은 프레임 이력을 활용한 학습 모델 제공
객체의 미래 위치 예측이 필요한 다양한 애플리케이션에 활용 가능

AllenAI가 MolmoMotion 제품군의 두 가지 모델을 방금 출시했습니다:
https://huggingface.co/allenai/MolmoMotion-4B-H3-F30
https://huggingface.co/allenai/MolmoMotion-4B-H1-F32

MolmoMotion은 자연어 동작 지침 (natural-language action instructions)에 따라 3D 포인트 궤적 (3D point trajectories)을 예측하는 4B 비전-언어 모델 (vision-language model)입니다. 짧은 RGB 관측 이력 (RGB observation history), 사용자가 지정한 2D 쿼리 포인트 (2D query points) 세트와 그 3D 이력, 그리고 동작 설명이 주어지면, 이 모델은 해당 포인트들이 미래의 시계 (future horizon) 동안 3D 공간(카메라 프레임, 미터 단위)에서 어디로 이동할지를 예측합니다.

한 모델은 3개 프레임 이력으로 학습되었고, 다른 모델은 1개 프레임 이력으로 학습되었습니다. 이 모델들은 과거 관측을 기반으로 객체의 미래 위치를 예측해야 하는 모든 애플리케이션에 유용할 것입니다.
submitted by /u/ttkciar
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

AllenAI, 짧은 프레임 이력을 기반으로 미래 움직임을 예측하는 MolmoMotion 비전 모델 출시

요약

핵심 포인트

댓글