“세계는 단어로 구성되지 않는다”: Fei-Fei Li가 논하는 세계 모델(World Models)의 세 가지 형태와 공간 지능(Spatial

요약

Fei-Fei Li는 AI의 다음 프런티어로 공간 지능을 제시하며, 세계 모델을 렌더러, 시뮬레이터, 플래너의 세 가지 핵심 기능으로 분류합니다. 특히 물리적 정확성을 담보하는 시뮬레이터가 렌더링과 계획을 잇는 구조적 중추임을 강조합니다.

핵심 포인트

세계 모델은 렌더러, 시뮬레이터, 플래너로 구분됨
렌더러는 시각적 충실도에, 플래너는 행동 출력에 집중함
시뮬레이터는 물리적/기하학적 정확성을 제공하는 핵심 고리임
공간 지능 구현을 위해 3D/물리 데이터 확보가 주요 과제임

방금 Fei-Fei Li의 최신 글을 보았습니다. 비록 언어의 장벽은 사라졌지만, 여전히 직접 번역하여 전체 내용을 확인하는 것을 좋아합니다. 👇🏻

“세계는 단어로 구성되지 않는다”: Fei-Fei Li가 논하는 세계 모델(World Models)의 세 가지 형태와 공간 지능(Spatial Intelligence)! (번역)

“세계는 존재하는 모든 것이다.”
-- 루드비히 비트겐슈타인 (Ludwig Wittgenstein)

세계는 단어로 구성되지 않는다.

언어 모델(Language Models)은 텍스트, 개념, 추론 측면에서 뛰어난 성능을 보이지만, 물리적 세계는 공간, 시간, 물리, 그리고 기하학(Geometry) 위에서 작동합니다. Fei-Fei Li와 그녀의 World Labs 팀은 공간 지능(Spatial Intelligence)이 AI의 다음 프런티어이며, 세계 모델(World Models)이 이 목표로 가는 핵심 경로라고 믿습니다.

하지만, 오늘날 “세계 모델(World Models)”이라는 용어는 심각하게 남용되고 있습니다.

컴퓨터 비전(Computer Vision), 로봇 공학(Robotics), 강화학습(RL), 생성형 AI(Generative AI) 등 서로 다른 커뮤니티마다 이 용어에 대한 이해가 크게 다릅니다.

Fei-Fei Li는 고전적인 POMDP(부분 관측 가능한 마르코프 결정 과정, Partially Observable Markov Decision Process) / 에이전트-환경 루프를 기반으로 명확한 분류법을 제시했습니다.

세계 모델의 세 가지 핵심 기능

Renderer (렌더러)
관측값(Observations)을 출력하며, 주로 인간의 눈을 위해 서비스하는 픽셀(Pixels) 중심입니다.
최적화 목표는 시각적 충실도(Visual Fidelity)와 타당성(Plausibility)입니다.

대표적인 예: Text-to-Video 모델, Google의 Genie, World Labs의 RTFM.

한계: 화면은 매우 완벽할 수 있지만, 물리적 상호작용이나 세밀한 검증 하에서는 쉽게 붕괴됩니다 — “보기에는 좋지만 견고하지 않음”.
Simulator (시뮬레이터)
상태(State)를 출력합니다 — 세계에 대한 기하학적 및 물리적으로 정확한 표현입니다.
물리, 충돌(Collision), 역학(Dynamics) 및 재료 특성을 엄격히 준수해야 합니다.

인간(설계, 건축, 영화)을 위해서도 작동하며, 기계(RL 에이전트, 로봇, 자율주행 훈련)를 위해서도 작동합니다.

Fei-Fei Li는 이것이 가장 중요한 고리라고 생각합니다. 이는 렌더링과 계획(Planning) 모두에서 파생될 수 있는 구조적 중추입니다.

현재 최대 과제: 3D/물리 데이터의 극심한 부족, sim-to-real 격차, 다중 물리장(Multi-physics field) 스케일링의 어려움.
Planner (플래너)

관측값과 목표에 따라 행동(Actions)을 출력합니다.
이는 시각-언어-행동 모델(VLA Models) 및 새롭게 등장하는 “세계 행동 모델(World Action Models)”을 포함하여 인지-행동 루프를 완성합니다.

현재 대부분은 여전히 제한된 실험실 환경에 국한되어 있습니다.

핵심 관점

시뮬레이터는 가장 중요하지만, 가장 과장되지 않은(덜 홍보되는) 부분입니다.

렌더러는 이미 상업적으로 성숙했습니다 (비디오 생성 분야).
플래너는 많은 관심과 자금을 얻고 있습니다 (로봇 공학 기업들).
반면 시뮬레이터는 이 둘을 연결하며, 신뢰할 수 있는 실제 세계 애플리케이션을 구현하는 핵심입니다.

가장 흥미로운 진전은 경계가 모호해지고 있다는 점입니다:

동일한 기초 지식(기하학 + 물리 + 역학)이 렌더링, 시뮬레이션, 계획을 동시에 지원해야 합니다.

World Labs의 Marble 프로젝트가 전형적인 예시입니다. 이 프로젝트는 멀티모달 프롬프트를 통해 탐사 가능한 3D 환경을 생성하는 동시에, 시각을 위한 가우시안 스플래팅(Gaussian Splatting)과 물리를 위한 충돌 메쉬(Collision Mesh)를 함께 출력합니다.

장기적인 비전은 통합된 세계 모델(Unified World Model)입니다. 즉, 사진처럼 실사적인 렌더링, 정밀한 물리 시뮬레이션, 행동 계획이라는 세 가지 모드 사이를 매끄럽게 전환할 수 있는 파운데이션 모델(Foundation Model)입니다.

결론

언어는 기계가 세계에 대해 “말하는” 법을 배우게 했습니다.
하지만 세계 모델이야말로 기계가 세계를 진정으로 이해하고, 상상하고, 추론하며, 그 안에서 행동하는 방식입니다.

이 글은 기술 철학적 깊이가 있으면서도 World Labs의 전략적 방향을 명확히 보여주는, 정보 밀도가 매우 높은 글입니다.

AI 자동 생성 콘텐츠

원문 바로가기

“세계는 단어로 구성되지 않는다”: Fei-Fei Li가 논하는 세계 모델(World Models)의 세 가지 형태와 공간 지능(Spatial

요약

핵심 포인트

댓글