
비디오 생성은 아직 세계 모델링(World Modeling)이 아니다
요약
비디오 확산 모델이 시간의 흐름은 모사하지만 실제 세계의 인과 관계를 이해하는 '세계 모델링'에는 한계가 있음을 지적합니다. YoCausal 연구를 통해 13개 모델의 인과적 인지 능력을 평가하고, LLM의 자기 개선을 위한 새로운 탐색 프레임워크를 제안합니다.
핵심 포인트
- 비디오 확산 모델의 인과 관계 구현 한계 증명
- YoCausal을 통한 13개 최첨단 모델의 인과적 인지 평가
- 양방향 진화 탐색을 통한 LLM 사후 학습 및 추론 개선
비디오 생성은 아직 세계 모델링 (World Modeling)이 아닙니다.
YoCausal는 선도적인 확산 모델 (Diffusion Models)들이 시간의 화살 (Arrow of Time)은 숙달했으나, 실제 세계의 역재생 비디오를 테스트했을 때 진정한 인과 관계 (Causality) 구현에는 실패한다는 것을 보여줍니다.
13개의 최첨단 비디오 확산 모델 (Video Diffusion Models)이 두 가지 수준의 인과적 인지 (Causal Cognition)를 통해 평가되었습니다.
논문 (Paper):
https://huggingface.co/papers/2605.30346
…
데이터셋 (Dataset):
https://huggingface.co/datasets/YouZhe/YoCausal-dataset
…
프로젝트 (Project):
https://youzhexie.me/papers/YoCausal/index.html
…
양방향 진화 탐색 (Bidirectional Evolutionary Search)을 통한 자기 개선 LLM (Self-Improving LLMs)
좁은 엔트로피 껍질 (Narrow Entropy Shells)을 벗어나기 위해 순방향 후보 진화 (Forward Candidate Evolution)와 역방향 목표 분해 (Backward Goal Decomposition)를 결합하여 조밀한 중간 피드백을 제공함으로써, 사후 학습 (Post-training)과 추론 (Inference)을 모두 개선하는 탐색 프레임워크입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기