Micro-World - 동작 제어가 가능한 상호작용형 월드 모델 - AMD
요약
Wan2.1 모델을 기반으로 동작 제어가 가능한 상호작용형 월드 모델인 Micro-World를 소개합니다. 이미지 및 텍스트를 통해 고품질 오픈 도메인 장면을 생성하며, 모델 가중치와 데이터셋을 모두 공개합니다.
핵심 포인트
- Wan2.1 기반의 동작 제어형 상호작용 월드 모델 Micro-World 공개
- I2W(이미지-투-월드) 및 T2W(텍스트-투-월드) 변형 모델 지원
- adaLN 및 ControlNet을 활용한 효율적인 동작 주입 기술 적용
- 모델 가중치, 학습/추론 코드, 특화 데이터셋 오픈 소스 공개
본 연구에서는 고품질의 오픈 도메인 (open-domain) 장면을 생성하도록 설계된 동작 제어형 상호작용형 월드 모델 (action-controlled interactive world model)인 Micro-World를 소개합니다. Wan2.1 모델 제품군을 기반으로 구축되었으며, 광범위한 사용 사례를 지원하기 위해 이미지-투-월드 (image-to-world, I2W) 및 텍스트-투-월드 (text-to-world, T2W) 변형 모델을 모두 학습시켰습니다. 커뮤니티의 개방형 연구와 실질적인 도입을 촉진하기 위해, 모델 가중치(weights), 전체 학습 및 추론 코드, 그리고 제어 가능한 월드 모델링 (controllable world modeling)에 특화되어 큐레이션된 데이터셋을 공개합니다.
동작 주입 (action injection)을 위해, 저희는 가벼운 파라미터 점유율 (parameter footprint)을 가진 adaLN을 선호하며, 학습 중 강력한 경험적 안정성을 제공하는 ControlNet을 사용합니다.
공개된 T2W 모델은 ControlNet을 사용하여 학습되었으며, I2W 모델은 adaLN을 사용하여 학습되었음에 유의하십시오.
더 자세한 정보는 GitHub 리포지토리 (GitHub Repo)를 참조하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기