arXiv논문2026. 06. 30. 12:54

LLM 에이전트 계획을 위한 자기 진화형 월드 모델 (Self-Evolving World Models)

요약

LLM 에이전트의 계획 능력을 향상시키기 위해 배포 시점의 컨텍스트를 수정하는 자기 진화형 월드 모델 'WorldEvolver'를 제안합니다. 에피소드 기억, 시맨틱 기억, 선택적 선견지명 모듈을 통해 예측 정확도와 에이전트의 성공률을 높였습니다.

핵심 포인트

모델 파라미터 동결 상태에서 컨텍스트 수정을 통한 성능 향상
검색 기반 시뮬레이션과 휴리스틱 규칙 추출을 통한 메모리 강화
신뢰도가 낮은 예측을 필터링하는 선택적 선견지명 메커니즘 도입
ALFWorld 및 ScienceWorld 벤치마크에서 기존 모델 대비 우수한 성능 입증

월드 모델 (World models)은 실행 전 행동 결과에 대한 예측을 통해 장기적 관점 (long-horizon)을 가진 LLM 에이전트에게 선견지명을 제공하는 원칙적인 방법을 제시합니다. 그러나 신뢰할 수 없는 선견지명은 무시되거나, 오용되거나, 심지어 하위 의사결정 (downstream decision-making) 성능을 저하시킬 수 있습니다. 본 논문에서는 하위 에이전트와 모든 모델 파라미터를 동결(frozen)한 상태에서 배포 시점의 컨텍스트 (deployment-time context)를 수정하는 자기 진화형 월드 모델 프레임워크인 WorldEvolver를 소개합니다. WorldEvolver은 세 가지 모듈을 통합합니다: (i) 검색 기반 시뮬레이션 (retrieval-based simulation)을 통해 실제 행동 전이 (action transitions)를 활용하는 에피소드 기억 (Episodic Memory), (ii) 예측-관찰 불일치 (prediction-observation mismatches)로부터 지속적인 휴리스틱 규칙 (heuristic rules)을 추출하는 시맨틱 기억 (Semantic Memory), 그리고 (iii) 에이전트 추론 컨텍스트에 통합하기 전 신뢰도가 낮은 예측을 필터링하는 선택적 선견지명 (Selective Foresight)입니다. 우리는 ALFWorld와 ScienceWorld에서 WorldEvolver을 평가하였으며, Word2World에서의 월드 모델 예측 정확도와 AgentBoard에서의 하위 에이전트 성공률을 측정하였습니다. 광범위한 실험을 통해 WorldEvolver은 세 가지 백본 (backbones) 전반에서 가장 높은 예측 정확도를 달성하였으며, 하위 에이전트 성공률 측면에서 다른 월드 모델 베이스라인들을 앞질렀습니다. 이는 테스트 시점의 메모리 수정 (test-time memory revision)이 예측 충실도 (predictive fidelity)와 계획 성능 (planning performance)을 모두 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 에이전트 계획을 위한 자기 진화형 월드 모델 (Self-Evolving World Models)

요약

핵심 포인트

댓글