arXiv논문2026. 06. 01. 11:32

PatchWorld: 실행 가능한 월드 모델의 그래디언트 프리 (Gradient-Free) 최적화

요약

PatchWorld는 오프라인 궤적을 실행 가능한 Python 월드 모델로 변환하는 그래디언트 프리 프레임워크입니다. 블랙박스 예측 대신 상징적 믿음 상태 프로그램을 유도하여 에이전트의 계획 능력을 향상시킵니다. 실험 결과, LLM 호출 없이도 높은 계획 성공률을 기록하며 관측 충실도와 의사결정 효용 간의 트레이드오프를 발견했습니다.

핵심 포인트

오프라인 궤적을 실행 가능한 Python 코드로 변환하는 프레임워크 제안
LLM 호출 없이도 높은 코드 기반 계획 점수 달성
관측 충실도와 의사결정 효용 사이의 트레이드오프 확인
반례 유도 코드 수정을 통한 그래디언트 프리 최적화 방식 사용

텍스트 에이전트 (Text-agent) 환경은 일반적으로 시뮬레이터의 잠재 상태 (latent state)와 전이 역학 (transition dynamics)이 에이전트에게 숨겨져 있다고 가정하는 부분 관측 마르코프 결정 과정 (POMDPs)으로 모델링됩니다. 그러나 실행 가능한 코드가 부분 관측 조건 하에서 예측 및 계획을 위한 월드 모델 (world model) 역할을 하도록 유도할 수 있는지에 대한 연구는 거의 이루어지지 않았습니다. 우리는 반례 유도 코드 수정 (counterexample-guided code repair)을 통해 오프라인 궤적 (offline trajectories)을 실행 가능한 Python 월드 모델로 변환하는 그래디언트 프리 (gradient-free) 프레임워크인 PatchWorld를 소개합니다. PatchWorld는 블랙박스 모델로 다음 관측값 (observation)을 예측하는 대신, 액션 업데이트 (action updates)를 검사, 재현 및 로컬 패치할 수 있는 상징적 믿음 상태 프로그램 (symbolic belief-state programs)을 유도합니다. 7개의 AgentGym 환경에 대해, PatchWorld-Simple은 월드 모델 예측 모듈 자체 내에서 LLM 호출을 전혀 사용하지 않으면서도, 라이브 1단계 앞서보기 (one-step lookahead)에서 76.4%의 매크로 성공률을 달성하며 평가된 방법들 중 가장 높은 코드 기반 계획 점수를 기록했습니다. 우리는 더 나아가 인간이 지정한 잔차 메모리 편향 (residual-memory bias)이 표면적 관측 충실도 (surface observation fidelity)를 향상시키지만 의사결정 효용 (decision utility)은 약화시킨다는 것을 발견했습니다. 이는 실행 가능한 월드 모델에서의 트레이드오프 (tradeoff)를 드러내는데, 관측 충실도를 높이는 것이 액션 판별 역학 (action-discriminative dynamics)의 희생을 초래할 수 있으며, 그 반대도 마찬가지이기 때문입니다. 코드는 https://github.com/HKBU-KnowComp/PatchWorld 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PatchWorld: 실행 가능한 월드 모델의 그래디언트 프리 (Gradient-Free) 최적화

요약

핵심 포인트

댓글