ScratchWorld: 월드 모델(World Models)이 실행 가능한 결과(Executable Consequences)를 계산하는지
요약
월드 모델의 예측 능력을 정밀하게 평가하기 위한 새로운 벤치마크인 ScratchWorld를 소개합니다. Scratch 프로젝트를 실행 가능한 환경으로 활용하여, 단순 상태 복사가 아닌 인과적 변화와 반사실적 결과를 정확히 예측하는지 진단합니다.
핵심 포인트
- 기존 월드 모델 평가의 중첩(overlap) 문제를 해결하는 ScratchWorld 벤치마크 제안
- 단순 상태 복사와 실제 인과적 변화를 구분하는 가치 인식 변경 필드(F1) 지표 도입
- 언어/추론 모델들이 실행 가능한 규칙을 따르지 못하는 한계 지적
- 장기 추적, 인과적 이벤트 귀속, 반사실적 예측 등 다각도 평가 수행
월드 모델 (World-model) 평가는 종종 타겟 상태 (target state) 또는 관측값 (observation)과의 중첩 (overlap)을 통해 예측된 미래를 점수화합니다. 변화가 드문 환경 (sparse-change worlds)에서, 이는 복사된 지속적 상태 (persistent state)를 겉보기의 정확도로 변질시킬 수 있습니다. 우리는 Scratch 프로젝트를 실행 가능한 월드 (executable worlds)로 취급하고, 고정된 Scratch VM을 사용하여 재생 검증된 전이 (replay-verified transitions), 숨겨진 변수 (hidden variables), 인과적 흔적 (causal traces), 그리고 반사실적 결과 (counterfactual outcomes)를 생성하는 오프라인 진단 벤치마크인 ScratchWorld를 소개합니다. ScratchWorld는 다음 상태 예측 (next-state prediction), 장기 추적 (long-horizon tracking), 인과적 이벤트 귀속 (causal event attribution), 그리고 반사실적 예측 (counterfactual prediction)을 평가합니다. 각 재생 검증된 타겟은 raw-program, structured-state, natural-language, 또는 rendered 입력 모달리티 (modalities) 하에 제시될 수 있으며, 우리의 실험에서는 structured-state 조건을 사용합니다. 주요 상태 지표는 가치 인식 변경 필드 (value-aware changed-field) $F_1$으로, 이는 변경된 필드와 그 실행된 값에 대해서만 점수를 부여합니다. 659개의 예시가 포함된 릴리스에서, 7개의 프롬프트 기반 언어/추론 모델 (language/reasoning models)은 상태 전용 부분 관측 스트레스 테스트 (state-only partial-observation stress test)에서 최대 13.8%의 가치 인식 변경 필드 $F_1$을 기록했습니다. 동일 인스턴스 복사 진단 (same-instance copy diagnostic)은 중첩 (overlap)으로 인한 혼란 (confound)을 구체화합니다: 입력 상태를 복사하면 암시된 전체 상태 필드 정확도 (implied full-state field accuracy)는 98.0%에 달하지만, 변경 필드 $F_1$ (changed-field $F_1$)은 0.0%를 기록하며, 실제 프로젝트에서 가장 큰 인플레이션 (inflation)을 보였습니다. 보조 진단 (Auxiliary diagnostics)은 숨겨진 상태 롤아웃 드리프트 (hidden-state rollout drift), 개입 민감도 (intervention sensitivity), 인과적 귀속 (causal attribution), 그리고 섭동 강건성 (perturbation robustness)을 분리하여 측정합니다. 이러한 설정 전반에서, 모델들은 변경된 값을 결정하는 실행 가능한 규칙 (executable rule)을 따르지 않은 채 행동 (actions)이나 개입 (interventions)에 반응하는 경우가 많습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기