arXiv논문2026. 06. 26. 10:52

Einstein World Models

요약

Einstein World Models(EWM)는 LLM의 추론 능력을 향상시키기 위해 시각적-시간적 롤아웃을 활용하는 새로운 연구 프레임워크입니다. 텍스트 기반 추론의 한계를 극복하고자 시각적 사고 실험을 통해 반사실적 사건을 시각화하고 검사 가능한 가설을 생성합니다.

핵심 포인트

LLM의 추론 과정에 시각적-시간적 롤아웃을 통합
텍스트만으로 부족한 복잡한 사고를 시각화로 보완
월드 모듈을 호출하여 검사 가능한 시각적 가설 생성
도구 호출 능력을 시각적 사고 실험 영역으로 확장

지능이 직접적인 경험을 넘어선 현상에 대해 추론하는 능력을 필요로 할까요? 어떤 복잡한 사고는 언어만으로는 포착될 수 없다고 의심하는 것은 자연스러운 일입니다. 하지만 본 연구에서 특히 관심을 두는 부분은, 반사실적(counterfactual) 사건을 시각화하는 것이 복잡한 사고를 위한 메커니즘으로서 언어를 보완할 수 있는지 여부입니다. 우리는 LLM(Large Language Models)이 이러한 시각화 메커니즘을 활용하도록 훈련되어, 그들의 추론 능력을 향상시키는 데 도움이 될 수 있는지 질문합니다. 이 질문에 착안하여, 우리는 Einstein World Models를 제안합니다. EWM은 추론 과정(reasoning trace) 내부에 시각적-시간적 롤아웃(visual-temporal rollouts)을 배치하여, 텍스트만으로는 잘 지원되지 않을 수 있는 방식으로 추론할 수 있게 하는 LLM 기반 추론 시스템의 청사진입니다. EWM에서 LLM은 월드 모듈(world-module, world model과 혼동하지 마십시오)을 호출하여 고려 중인 장면의 짧은 롤아웃을 생성합니다. 반환된 롤아웃은 정답이 아니라, 이후의 추론을 지원할 수 있는 검사 가능한 가설(inspectable hypothesis)로 취급됩니다. Einstein World Models는 도구 호출(tool calling, 웹 검색 또는 코드 실행 등)에 대한 LLM의 능력을 시각적 사고 실험(visual thought experiments)의 영역으로 확장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Einstein World Models

요약

핵심 포인트

댓글