LLM 에이전트 학습을 위한 회고적 진행 상황 인지 자기 개선 (Retrospective Progress-Aware
요약
LLM 에이전트의 장기적 작업 수행 능력을 높이기 위해 '전진 후 성찰' 패러다임을 제안하는 RePro 프레임워크를 소개합니다. 에이전트가 자신의 행동 궤적을 회고적으로 재평가하여 진행 상황을 스스로 인지하도록 학습시켜 성능을 개선합니다.
핵심 포인트
- LLM 에이전트의 메타인지적 진행 상황 인식 부족 문제 해결
- 전진 후 성찰(Forward-then-reflect) 롤아웃 패러다임 도입
- 회고 웜업과 복합 보상을 통한 자기 개선 학습 메커니즘
- WebShop, ALFWorld 등에서 Qwen 모델 성능 최대 12% 향상
강화학습 (Reinforcement Learning)으로 학습된 LLM 기반 에이전트들은 단계별 행동 예측을 최적화하지만, 작업 진행 상황에 대한 메타인지적 인식 (Metacognitive Awareness)이 부족하여 장기적 확장 (Long-horizon scaling)을 방해하는 격차를 유발합니다. 예비 연구에 따르면 온라인 진행 상황 프롬프팅 (Online progress prompting)은 성능을 저하시키는 반면, 회고적 시연 (Retrospective demonstrations)은 도움이 되지만, 이러한 능력은 결과 보상 학습 (Outcome-reward training)만으로는 나타날 수 없습니다. 우리는 RePro, 즉 회고적 진행 상황 인지 학습 (Retrospective Progress-Aware Training)을 제시합니다. 이는 '전진 후 성찰 (Forward-then-reflect)' 롤아웃 패러다임을 통해 에이전트가 진행 상황 신호를 스스로 생성하도록 학습시키는 프레임워크입니다. 에이전트는 온라인으로 행동을 실행한 다음, 완료된 궤적 (Trajectory)과 알려진 결과를 바탕으로 자신의 단계별 진행 상황을 회고적으로 재평가합니다. RePro는 최소한의 외부 시연으로부터 성찰 형식을 가르치는 '회고 웜업 (Retrospection Warmup)'으로 초기화된 후, 지속적인 외부 감독 없이도 스스로 생성된 신호를 만들어내는 복합 보상 (Composite reward)을 사용하는 RePro-PO를 통해 추가 학습됩니다. WebShop, ALFWorld, Sokoban에서의 실험 결과, RePro는 Qwen 제품군의 성능을 향상시키며 최대 12%의 절대적 성공률 상승을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기