AllenAI가 로보틱스를 위해 MolmoAct2 모델을 지속적으로 개선하고 있습니다
요약
AllenAI는 5B 파라미터 규모의 시각-언어-행동(VLA) 모델인 MolmoAct2를 개발하여 로봇 제어 분야에서 뛰어난 성능을 보여주고 있습니다. AllenAI는 일반적인 작업, 상호작용형 작업, 절대 관절 포즈 제어 등 다양한 목적에 맞춘 미세 조정 모델들을 지속적으로 공개하고 있습니다. 특히 이 모델들은 가중치뿐만 아니라 전체 학습 데이터셋, 소스 코드, 기술 논문까지 완전한 오픈 소스로 제공하여 연구 및 개발 커뮤니티의 활용도를 극대화했습니다.
핵심 포인트
- MolmoAct2는 5B 파라미터 규모의 시각-언어-행동(VLA) 모델로, 로봇 제어에 특화되어 있습니다.
- AllenAI는 일반 작업, 상호작용형 작업, 절대 관절 포즈 제어 등 다양한 전문 분야별 미세 조정 모델을 지속적으로 출시하고 있습니다.
- MolmoAct2의 모든 구성 요소(가중치, 전체 학습 데이터셋, 소스 코드, 기술 논문)가 완전한 오픈 소스로 공개되었습니다.
- 이 모델은 LLM 추론을 통해 제어되는 로봇 시스템에 활용하기 적합합니다.
r/AllenAI가 로봇 제어를 위한 5B 파라미터 규모의 시각-언어-행동 (Vision-Language-Action, VLA) 모델인 MolmoAct2로 놀라운 성과를 내고 있습니다. 이들은 다양한 종류의 로보틱스 데이터셋을 포함하여 (이에 국한되지 않으며, 계속해서 새로운 데이터셋을 출시하고 있습니다) 새로운 미세 조정 (Fine-tuning) 모델들을 지속적으로 출시하고 있습니다:
-
https://huggingface.co/allenai/MolmoAct2-LIBERO - 일반적인 로보틱스 작업
-
https://huggingface.co/allenai/MolmoAct2-DROID - 상호작용형 로보틱스 작업
-
https://huggingface.co/allenai/MolmoAct2-BimanualYAM - 절대 관절 포즈 (Absolute joint-pose) 제어
-
https://huggingface.co/allenai/MolmoAct2-SO100_101 - 또한 절대 관절 포즈 (Absolute joint-pose) 제어
AllenAI는 이 모델들을 완전한 오픈 소스 (Fully open source) 모델로 공개하였으며, 가중치 (Weights)뿐만 아니라 (사전 학습 (Pretraining)을 포함한) 전체 학습 데이터셋, 학습 소프트웨어 소스 코드, 그리고 이 모델들의 이론, 학습 및 평가를 설명하는 기술 논문들을 함께 게시했습니다.
만약 LLM 추론 (Inference)을 통해 제어되는 로봇을 만지고 계신 분이 있다면, MolmoAct2 모델을 살펴보아야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기