arXiv논문2026. 06. 15. 11:19

SIMMER: 월드 모델을 통한 LLM 실행 계획의 잠재적 실패(Latent Failures) 벤치마킹

요약

LLM 에이전트의 계획 실행 중 발생하는 '잠재적 실패(latent failures)'를 탐지하고 평가하기 위한 새로운 벤치마크 SIMMER를 소개합니다. 월드 모델을 활용해 즉각적인 오류는 아니지만 목표 달성을 저해하거나 돌이킬 수 없는 피해를 주는 오류를 식별합니다.

핵심 포인트

잠재적 실패는 즉각적인 피드백 없이 목표 달성을 조용히 저해함
SIMMER는 주방 도메인의 심볼릭 월드 모델을 기반으로 설계됨
최첨단 모델조차 오류 없는 계획 달성률이 최대 17%에 불과함
반사실적 예측 시뮬레이션을 통해 잠재적 실패를 최대 72% 감소 가능

대규모 언어 모델(LLMs)은 가사 환경 내 자율 에이전트를 위한 플래너(planners)로서 점점 더 많이 배치되고 있습니다. 기존의 벤치마크들은 LLM이 생성한 계획이 성공적으로 실행되는지를 평가하지만, 중요한 유형의 실패인 잠재적 실패(latent failures)를 간과하고 있습니다. 실행 시점에 즉각적인 피드백을 유발하여 적시에 수정을 가능하게 하는 즉각적 실패(immediate failures)와 달리, 잠재적 실패는 계획 실행을 즉시 중단시키지는 않지만 목표 달성을 조용히 저해합니다. 심각한 경우, 이는 돌이킬 수 없는 피해를 초래합니다. 이러한 격차를 해소하기 위해, 우리는 주방 도메인에 기반하여 인간이 큐레이션한 심볼릭 월드 모델(symbolic world model)을 통해 LLM 계획의 잠재적 실패를 평가하는 벤치마크인 SIMMER를 소개합니다. SIMMER는 실제 요리 스크립트에서 유도된, 의미론적으로 현실적인 77개의 행동(actions), 262개의 고유 객체(objects), 그리고 약 46,800개의 가능한 상호작용(interactions)으로 구성된 월드 모델을 정의합니다. 그런 다음 월드 모델에 대해 계획을 검증하고 즉각적인 전제 조건 위반(precondition violations), 잠재적 위험(latent hazards), 그리고 돌이킬 수 없는 실패(irreversible failures)를 감지하는 상태 머신 실행기(state machine executor)를 활용합니다. 6개의 LLM을 대상으로 한 실험 결과, 최첨단 모델(frontier models)조차 오류 없는 계획을 최대 17%까지만 달성함을 보여줍니다. 더욱이, 계획의 최대 56%가 잠재적 실패를 포함하고 있으며, 그 중 대다수는 돌이킬 수 없는 결과를 초래합니다. 우리는 더 나아가 반사실적 예측 시뮬레이션(counterfactual foresight simulation)을 통한 명시적 상태 추론(explicit state reasoning)이 잠재적 실패를 최대 72%, 돌이킬 수 없는 사례를 최대 75%까지 줄일 수 있음을 입증하며, 이는 더욱 견고한 LLM 플래너를 위한 유망한 방향을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SIMMER: 월드 모델을 통한 LLM 실행 계획의 잠재적 실패(Latent Failures) 벤치마킹

요약

핵심 포인트

댓글