Pelican-Unified 1.0: 이해, 추론, 상상 및 행동을 위한 통합된 Embodied Intelligence 모델
요약
Pelican-Unified 1.0은 학습 과정에서 '통합(unification)' 원칙을 적용한 최초의 Embodied Foundation Model입니다. 이 모델은 단일 VLM을 사용하여 장면, 지시 사항, 시각적 문맥 및 행동 이력 등 다양한 정보를 공유된 의미 공간에 매핑하고, 이를 통해 이해, 추론, 상상, 행동 네 가지 능력을 하나의 시스템으로 공동 최적화합니다. Pelican-Unified 1.0은 단일 체크포인트로 VLM 벤치마크 최고 성능과 WorldArena 1위 등 강력한 성능을 입증하며 통합 패러다임의 성공을 보여줍니다.
핵심 포인트
- Pelican-Unified 1.0은 이해, 추론, 상상, 행동 네 가지 능력을 하나의 모델로 통합하는 최초의 Embodied Foundation Model입니다.
- 단일 VLM이 공유된 의미 공간에 다양한 정보를 매핑하고, 이를 통해 모든 모듈을 공동으로 최적화합니다.
- 모델은 단일 순전파 과정에서 작업 및 미래 지향적인 사고 사슬(chains of thought)을 자기회귀적으로 생성하며, 통합 미래 생성기(UFG)를 통해 미래 비디오와 행동을 공동 생성합니다.
- 이러한 통합 패러다임 덕분에 모델은 세 가지 격리된 전문가 시스템의 강점을 유지하면서도 높은 성능을 달성했습니다.
우리는 통합(unification) 원칙에 따라 학습된 최초의 Embodied Foundation Model인 Pelican-Unified 1.0을 선보입니다. Pelican-Unified 1.0은 단일 VLM (Vision-Language Model)을 통합 이해 모듈 (unified understanding module)로 사용하여 장면, 지시 사항, 시각적 문맥(visual contexts) 및 행동 이력(action histories)을 공유된 의미 공간(shared semantic space)으로 매핑합니다. 동일한 VLM은 통합 추론 모듈 (unified reasoning module)로도 기능하며, 단일 순전파 (forward pass) 과정에서 작업, 행동 및 미래 지향적인 사고 사슬 (chains of thought)을 자기회귀적 (autoregressively)으로 생성하고 최종 은닉 상태 (final hidden state)를 밀집 잠재 변수 (dense latent variable)로 투영합니다. 그런 다음 통합 미래 생성기 (Unified Future Generator, UFG)가 이 잠재 변수를 조건으로 하여, 동일한 디노이징 과정 (denoising process) 내에서 두 개의 양식별 출력 헤드 (modality-specific output heads)를 통해 미래 비디오와 미래 행동을 공동으로 생성합니다. 언어, 비디오 및 행동 손실 (losses)은 모두 공유된 표현 (shared representation)으로 역전파 (backpropagated)되어, 모델이 세 개의 격리된 전문가 시스템 (expert systems)을 학습하는 대신 학습 과정 동안 이해, 추론, 상상 및 행동을 공동으로 최적화할 수 있도록 합니다. 실험을 통해 통합이 타협을 의미하지 않음을 입증했습니다. 단일 체크포인트 (single checkpoint)로 Pelican-Unified 1.0은 세 가지 능력 모두에서 강력한 성능을 달성했습니다: 8개의 VLM 벤치마크에서 유사한 규모의 모델 중 최고인 64.7을 기록하였고, WorldArena에서 1위를 차지한 66.03을 기록하였으며, 비교된 행동 방법들 중 두 번째로 높은 평균인 93.5를 RoboTwin에서 기록했습니다. 이러한 결과는 통합 패러다임이 이해, 추론, 상상 및 행동을 하나의 모델로 가져오면서도 전문가로서의 강점을 보존하는 데 성공했음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기