arXiv논문2026. 06. 29. 10:58

토큰에서 상태로: 세계 모델의 특수한 사례로서의 LLM과 그 너머의 연속적인 경로

요약

LLM과 세계 모델(World Models) 사이의 이분법적 관계를 재정의하며, LLM을 세계 모델의 특수한 사례로 보는 관점을 제시합니다. 다음 토큰 예측에서 JEPA로 이어지는 연속적인 연구 스펙트럼을 통해 모델의 발전 방향을 논의합니다.

핵심 포인트

LLM은 상태 공간과 행동이 제한된 세계 모델의 특수 사례임
토큰 예측에서 잠재 예측으로 이어지는 연속적인 연구 스펙트럼 존재
LLM의 제약인 이산적 토큰과 트랜스포머 아키텍처의 점진적 탈피
데이터 확보 방식과 아키텍처 일반화가 향후 주요 연구 과제임

AI 커뮤니티는 거대 언어 모델 (LLMs)과 세계 모델 (world models) 사이의 관계를 이분법적으로 정의해 왔습니다. 즉, LLM은 토큰을 예측하고, 세계 모델은 현실을 시뮬레이션한다는 것입니다. Yann LeCun은 2022년에 범용 지능 (general intelligence)에 도달하기 위해서는 자기회귀적 (autoregressive) 토큰 예측을 포기하고 잠재 공간 (latent-space) 아키텍처를 채택해야 한다고 주장했습니다. 이러한 프레임워크는 불필요하게 이분법적입니다. 본 논문은 두 가지 주장을 옹호할 것입니다. 첫째, LLM은 세계 모델의 퇴화된 특수 사례 (degenerate special case)입니다. 상태 공간 (state space)은 모든 토큰 시퀀스의 집합이며, 유일한 행동 (action)은 하나의 토큰을 추가하는 것입니다. 따라서 세계 모델은 LLM의 대체제가 아니라 LLM의 엄격한 일반화 (generalisation)입니다. 둘째, 다음 토큰 예측 (NTP)에서 JEPA에 이르기까지 자연스럽고 연속적인 스펙트럼이 존재하며, 다중 토큰 예측 (multi-token prediction), 미래 요약 예측 (future-summary prediction), 그리고 다음 잠재 예측 (next-latent prediction)이 이미 현재 연구에 의해 채워진 중간 단계들로 존재합니다. 이 스펙트럼을 따라 이동하면 LLM의 제약 조건들이 하나씩 완화됩니다. 또한 이는 LLM을 대규모로 학습 가능하게 만드는 두 가지 실질적인 이점, 즉 인터넷 규모의 자기지도 학습 (self-supervised) 데이터와 이산적 (discrete) 토큰 예측을 위해 공동 설계된 트랜스포머 (transformer) 아키텍처를 점진적으로 포기하게 됩니다. 이 두 가지는 모두 열린 연구 과제로 검토됩니다: 데이터 문제 (자기지도 텍스트에서 도구화된 행동 라벨링 환경으로의 절벽)와 아키텍처 문제 (트랜스포머가 연속 상태 예측으로 일반화될 수 있는지, 아니면 새로운 원시 요소 (primitive)가 필요한지)입니다.

AI 자동 생성 콘텐츠

원문 바로가기

토큰에서 상태로: 세계 모델의 특수한 사례로서의 LLM과 그 너머의 연속적인 경로

요약

핵심 포인트

댓글