arXiv논문2026. 06. 02. 13:02

언어 에이전트를 위한 정책 및 세계 모델링 공동 학습 (Policy and World Modeling Co-Training)

요약

언어 에이전트의 성능 향상을 위해 정책 학습과 세계 모델링(WM)을 동시에 수행하는 PaW 프레임워크를 제안합니다. 별도의 시뮬레이터 없이 온폴리시 RL 롤아웃 데이터를 활용하여 효율적인 학습이 가능함을 입증했습니다.

핵심 포인트

정책과 세계 모델링을 공동 학습하는 PaW 프레임워크 제안
추가적인 시뮬레이터나 추론 시간 계산 없이 학습 가능
행동 엔트로피 기반 데이터 선택 및 노이즈 내성 손실 함수 도입
다양한 벤치마크에서 기존 RL 베이스라인 대비 성능 개선 확인

강화학습 (RL)은 어떤 행동이 높은 보상으로 이어지는지를 가르침으로써 대규모 언어 모델 (LLM) 에이전트를 개선하지만, 해당 행동이 환경에 어떤 영향을 미치는지에 대해서는 거의 감독을 제공하지 않습니다. 세계 모델링 (World Modeling, WM)은 이러한 격차를 메울 수 있지만, 기존 방식들은 종종 별도의 시뮬레이터, 추가적인 학습 단계 또는 추가적인 추론 시간 계산 (inference-time computation)을 요구합니다. 우리는 온폴리시 (on-policy) RL 롤아웃 (rollouts)에 이미 필요한 신호가 포함되어 있음을 관찰했습니다. 즉, 각 전이 (transition)는 행동을 그 결과로 나타나는 다음 관측값 (next observation)과 쌍으로 연결합니다. 이러한 관찰을 바탕으로, 우리는 추론 패러다임을 변경하지 않으면서 RL 과정 중 동일한 정책에 보조적인 WM 감독을 추가하는 정책 및 세계 모델링 공동 학습 프레임워크인 PaW를 제안합니다. 보조적인 WM 감독을 유익하고 안정적으로 만들기 위해, PaW는 세 가지 구성 요소를 도입합니다: 행동 엔트로피 기반 (action-entropy-based) WM 데이터 선택, 노이즈 내성 (noise-tolerant) WM 손실 함수, 그리고 보상 적응형 (reward-adaptive) 손실 균형화입니다. 세 가지 에이전트 작업 벤치마크에서의 실험을 통해, 다양한 모델과 RL 알고리즘에 걸쳐 강력한 RL 베이스라인 대비 일관된 개선을 보여주었습니다. 이러한 결과는 표준 RL 롤아웃이 언어 에이전트 학습을 위한 WM 감독의 실용적인 소스임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 에이전트를 위한 정책 및 세계 모델링 공동 학습 (Policy and World Modeling Co-Training)

요약

핵심 포인트

댓글