Pelican-Unified 1.0: 이해, 추론, 상상 및 행동을 위한 통합된 Embodied Intelligence 모델

우리는 통합(unification) 원칙에 따라 학습된 최초의 Embodied Foundation Model인 Pelican-Unified 1.0을 선보입니다. Pelican-Unified 1.0은 단일 VLM (Vision-Language Model)을 통합 이해 모듈 (unified understanding module)로 사용하여 장면, 지시 사항, 시각적 문맥(visual contexts) 및 행동 이력(action histories)을 공유된 의미 공간(shared semantic space)으로 매핑합니다. 동일한 VLM은 통합 추론 모듈 (unified reasoning module)로도 기능하며, 단일 순전파 (forward pass) 과정에서 작업, 행동 및 미래 지향적인 사고 사슬 (chains of thought)을 자기회귀적 (autoregressively)으로 생성하고 최종 은닉 상태 (final hidden state)를 밀집 잠재 변수 (dense latent variable)로 투영합니다. 그런 다음 통합 미래 생성기 (Unified Future Generator, UFG)가 이 잠재 변수를 조건으로 하여, 동일한 디노이징 과정 (denoising process) 내에서 두 개의 양식별 출력 헤드 (modality-specific output heads)를 통해 미래 비디오와 미래 행동을 공동으로 생성합니다. 언어, 비디오 및 행동 손실 (losses)은 모두 공유된 표현 (shared representation)으로 역전파 (backpropagated)되어, 모델이 세 개의 격리된 전문가 시스템 (expert systems)을 학습하는 대신 학습 과정 동안 이해, 추론, 상상 및 행동을 공동으로 최적화할 수 있도록 합니다. 실험을 통해 통합이 타협을 의미하지 않음을 입증했습니다. 단일 체크포인트 (single checkpoint)로 Pelican-Unified 1.0은 세 가지 능력 모두에서 강력한 성능을 달성했습니다: 8개의 VLM 벤치마크에서 유사한 규모의 모델 중 최고인 64.7을 기록하였고, WorldArena에서 1위를 차지한 66.03을 기록하였으며, 비교된 행동 방법들 중 두 번째로 높은 평균인 93.5를 RoboTwin에서 기록했습니다. 이러한 결과는 통합 패러다임이 이해, 추론, 상상 및 행동을 하나의 모델로 가져오면서도 전문가로서의 강점을 보존하는 데 성공했음을 보여줍니다.

Insights

Pelican-Unified 1.0: 이해, 추론, 상상 및 행동을 위한 통합된 Embodied Intelligence 모델

요약

핵심 포인트

댓글

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기