Einstein World Models
요약
Einstein World Models(EWM)는 LLM의 추론 능력을 향상시키기 위해 시각적-시간적 롤아웃을 활용하는 새로운 연구 프레임워크입니다. 텍스트 기반 추론의 한계를 극복하고자 시각적 사고 실험을 통해 반사실적 사건을 시각화하고 검사 가능한 가설을 생성합니다.
핵심 포인트
- LLM의 추론 과정에 시각적-시간적 롤아웃을 통합
- 텍스트만으로 부족한 복잡한 사고를 시각화로 보완
- 월드 모듈을 호출하여 검사 가능한 시각적 가설 생성
- 도구 호출 능력을 시각적 사고 실험 영역으로 확장
지능이 직접적인 경험을 넘어선 현상에 대해 추론하는 능력을 필요로 할까요? 어떤 복잡한 사고는 언어만으로는 포착될 수 없다고 의심하는 것은 자연스러운 일입니다. 하지만 본 연구에서 특히 관심을 두는 부분은, 반사실적(counterfactual) 사건을 시각화하는 것이 복잡한 사고를 위한 메커니즘으로서 언어를 보완할 수 있는지 여부입니다. 우리는 LLM(Large Language Models)이 이러한 시각화 메커니즘을 활용하도록 훈련되어, 그들의 추론 능력을 향상시키는 데 도움이 될 수 있는지 질문합니다. 이 질문에 착안하여, 우리는 Einstein World Models를 제안합니다. EWM은 추론 과정(reasoning trace) 내부에 시각적-시간적 롤아웃(visual-temporal rollouts)을 배치하여, 텍스트만으로는 잘 지원되지 않을 수 있는 방식으로 추론할 수 있게 하는 LLM 기반 추론 시스템의 청사진입니다. EWM에서 LLM은 월드 모듈(world-module, world model과 혼동하지 마십시오)을 호출하여 고려 중인 장면의 짧은 롤아웃을 생성합니다. 반환된 롤아웃은 정답이 아니라, 이후의 추론을 지원할 수 있는 검사 가능한 가설(inspectable hypothesis)로 취급됩니다. Einstein World Models는 도구 호출(tool calling, 웹 검색 또는 코드 실행 등)에 대한 LLM의 능력을 시각적 사고 실험(visual thought experiments)의 영역으로 확장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기