arXiv논문2026. 06. 26. 12:15

월드 모델(World Models)에서의 환각(Hallucination)은 예측 가능하며 방지할 수 있다

요약

생성형 월드 모델의 환각 현상이 데이터 커버리지가 낮은 영역에서 발생한다는 가설을 검증하고, 이를 탐지 및 완화하는 방법을 제안합니다. MMBench2 데이터셋을 통해 세 가지 환각 모드를 식별하고, 커버리지 인식 샘플링과 호기심 보상을 활용한 효율적인 미세 조정 기술을 선보입니다.

핵심 포인트

월드 모델의 환각은 데이터 커버리지 부족 문제로 정의됨
지각적, 행동 소외적, 장면 발산적 세 가지 환각 모드 식별
환각 예측 신호를 활용한 타겟팅 데이터 수집 및 완화 가능
단 50개의 궤적만으로도 미지의 환경에 적응하는 데이터 효율성 증명

현대의 생성형 월드 모델(generative world models)은 점점 더 사실적이고 행동 제어가 가능한 미래를 렌더링하지만, 빈번하게 환각(hallucinate)을 일으킵니다. 즉, 롤아웃(rollouts)은 시각적으로는 유창하게 유지되지만 실제 정답 역학(ground-truth dynamics)으로부터 벗어납니다. 우리는 환각이 상태-행동 공간(state-action space)의 데이터 커버리지가 낮은 영역에 집중된다는 가설을 세웠으며, 이곳에서는 가벼운 데이터 중심 신호(data-centric signals)를 통해 환각을 탐지하고 완화(mitigation)를 유도할 수 있습니다. 이를 테스트하기 위해, 우리는 정답 행동(ground-truth actions), 보상(rewards), 그리고 라이브 시뮬레이터(live simulators)를 포함하여 시각적 월드 모델링을 위한 427시간, 210개 태스크 규모의 데이터셋인 MMBench2를 도입하고, 이를 바탕으로 350M 파라미터 규모의 월드 모델을 학습시킵니다. 우리는 세 가지 뚜렷한 환각 모드인 지각적(perceptual), 행동 소외적(action-marginalized), 장면 발산적(scene-diverging) 모드를 식별했습니다. 각 모드는 파이프라인의 서로 다른 단계에 고정되어 있으며, 우리는 모델이 어디에서 실패할지 정확하게 예측하는 세 가지 신호를 개발했습니다. 학습 시점에 커버리지 격차를 메우기 위해 우리는 커버리지 인식 샘플링(coverage-aware sampling) 기술을 개발하였고, 온라인에서 이를 메우기 위해 우리의 환각 예측기(hallucination predictors)를 타겟팅된 데이터 수집을 위한 호기심 보상(curiosity rewards)으로 활용합니다. 이는 단 50개의 실제 환경 궤적(trajectories)만으로도 사전 학습된 월드 모델을 완전히 보지 못한 환경에 적응시키는 데이터 효율적인 미세 조정(finetuning) 레시피를 제공합니다. 종합적으로, 우리의 연구 결과는 월드 모델에서의 환각이 본질적으로 데이터 커버리지 문제이며, 환각을 탐지하는 데 사용된 동일한 신호가 완화에도 사용될 수 있음을 보여줍니다. 우리 논문의 대화형 웹 버전은 https://www.nicklashansen.com/mmbench2 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

월드 모델(World Models)에서의 환각(Hallucination)은 예측 가능하며 방지할 수 있다

요약

핵심 포인트

댓글