arXiv논문2026. 06. 02. 12:23

COMAP: LLM 에이전트를 위한 세계 모델(World Models)과 에이전트 정책(Agent Policies)의 공동 진화

요약

COMAP은 LLM 에이전트의 세계 모델과 에이전트 정책을 폐쇄 루프 상호작용을 통해 공동 진화시키는 새로운 프레임워크입니다. 에이전트가 미래 상태 피드백을 활용해 성찰하고, 생성된 궤적을 통해 세계 모델을 업데이트함으로써 상호 적응력을 높입니다.

핵심 포인트

세계 모델과 에이전트 정책의 공동 진화 프레임워크 제안
미래 상태 피드백을 통한 에이전트의 성찰(Reflection) 기능 구현
자기 증류(Self-distillation)를 통한 세계 모델의 지속적 업데이트
Web navigation 및 도구 사용 벤치마크에서 성능 향상 입증

언어 에이전트(Language agents)에게 세계 모델(World models)을 장착하면 환경의 역학(Environment dynamics)을 예측하고 실행 전 후보 행동들을 평가할 수 있게 됩니다. 그러나 기존의 텍스트 기반 세계 모델은 일반적으로 학습 후 고정되어 있어, 진화하는 에이전트에 의해 유도되는 온폴리시(On-policy) 상태-행동 분포에 적응하지 못합니다. 한편, 에이전트 개선 방법론들은 종종 외부 보상(External rewards)이나 검증기(Verifiers)에 의존하며, 이는 실제적인 상호작용 환경에서의 적용성을 제한합니다. 본 논문에서는 폐쇄 루프 상호작용(Closed-loop interaction)을 통해 텍스트 세계 모델과 에이전트 정책을 공동 진화(Co-evolves)시키는 새로운 프레임워크인 COMAP을 제안합니다. 각 결정 단계(Decision step)에서 세계 모델은 후보 행동에 대한 미래 상태 피드백(Future state feedback)을 예측하며, 에이전트는 이 피드백의 신뢰도를 추정하고 그에 따라 행동을 개선함으로써 미래를 인지하는 성찰(Future-aware reflection)을 수행합니다. 결과적으로 생성된 온폴리시 궤적(On-policy trajectories)은 자기 증류(Self-distillation)를 통해 세계 모델을 업데이트하는 데 사용되며, 이를 통해 세계 모델이 에이전트의 진화하는 상호작용 분포에 더 잘 부합하도록 합니다. Embodied task planning, Web navigation, 그리고 도구 사용(Tool-use) 벤치마크 전반에 걸쳐 COMAP은 경쟁력 있는 베이스라인(Baselines)들을 지속적으로 능가하였으며, 예를 들어 Qwen3-4B를 사용했을 때 상대적으로 16.75%의 개선을 보였습니다. 추가 분석 결과, 공동 진화 루프(Co-evolutionary loop)는 시간이 지남에 따라 세계 모델의 예측 정확도를 향상시키고 더욱 효과적인 장기 의사결정(Long-horizon decision-making)으로 이어진다는 것을 보여줍니다. 저희의 코드는 다음에서 확인할 수 있습니다: https://github.com/loyiv/CoMAP.

AI 자동 생성 콘텐츠

원문 바로가기

COMAP: LLM 에이전트를 위한 세계 모델(World Models)과 에이전트 정책(Agent Policies)의 공동 진화

요약

핵심 포인트

댓글