Humanoid-GPT: 제로샷 모션 트래킹을 위한 데이터 및 구조의 스케일링
요약
Humanoid-GPT는 20억 프레임 규모의 대규모 모션 코퍼스로 학습된 GPT 스타일의 트랜스포머 모델입니다. 데이터와 모델 용량을 스케일링하여 기존 MLP 트래커의 한계를 극복하고, 미학습 동작 및 제어 태스크에 대해 뛰어난 제로샷 일반화 성능을 보여줍니다.
핵심 포인트
- 20억 프레임 규모의 대규모 리타겟팅 코퍼스 활용
- 인과적 어텐션 기반의 GPT 스타일 트랜스포머 구조
- 데이터 및 모델 용량 스케일링을 통한 성능 향상
- 미학습 동작 및 태스크에 대한 강력한 제로샷 일반화 달성
우리는 전신 제어 (whole-body control)를 위해 10억 규모의 모션 코퍼스 (motion corpus)로 학습된 인과적 어텐션 (causal attention) 기반의 GPT 스타일 트랜스포머 (Transformer)인 Humanoid-GPT를 소개합니다. 희소한 데이터와 민첩성-일반화 간의 트레이드오프 (trade-off)에 의해 제약받았던 기존의 얕은 MLP 트래커 (MLP trackers)와 달리, Humanoid-GPT는 모든 주요 모캡 (mocap) 데이터셋과 대규모 자체 기록을 통합한 20억 프레임 규모의 리타겟팅된 코퍼스 (retargeted corpus)로 사전 학습되었습니다. 데이터와 모델 용량 (model capacity)을 모두 스케일링함으로써, 매우 역동적인 동작을 트래킹하는 동시에 보지 못한 모션 (unseen motions) 및 제어 태스크 (control tasks)에 대해 전례 없는 제로샷 일반화 (zero-shot generalization)를 달성하는 단일 생성형 트랜스포머 (generative Transformer)를 구현했습니다. 광범위한 실험과 스케일링 분석을 통해 우리 모델이 새로운 성능 경계 (performance frontier)를 구축함을 보여주며, 매우 역동적이고 복잡한 모션을 트래킹하는 동시에 보지 못한 태스크에 대한 강력한 제로샷 일반화를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기