본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 12:48

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory

요약

본 연구는 LLM 기반 에이전트의 장기적 의사결정 문제를 해결하기 위해 '전략적 궤적 추상화(StraTA)'라는 프레임워크를 제안합니다. StraTA는 초기 작업 상태에서 컴팩트한 전략을 샘플링하고, 후속 행동은 이 전략에 조건부로 결정하며, 계층적 GRPO 스타일의 롤아웃 설계를 통해 전략 생성과 행동 실행을 동시에 학습합니다. 실험 결과, StraTA는 ALFWorld, WebShop, SciWorld 등 다양한 환경에서 기존 강력한 베이스라인 모델들을 능가하는 높은 성공률과 샘플 효율성을 보여주었습니다.

핵심 포인트

  • LLM 에이전트의 장기적 의사결정 최적화에 어려움이 있으며, 이는 순수 반응형 접근 방식 때문입니다.
  • StraTA는 명시적인 궤적 수준의 전략을 도입하여 에이전트 강화학습(RL)에 구조를 부여합니다.
  • 핵심 메커니즘은 초기 상태에서 컴팩트한 '전략'을 샘플링하고, 후속 행동을 이 전략에 조건부로 만드는 것입니다.
  • 계층적 GRPO 스타일의 롤아웃 설계를 통해 전략 생성과 행동 실행을 통합적으로 학습합니다.

대규모 언어 모델 (LLMs) 은 점차 상호작용 에이전트로 사용되고 있지만, 장기적 의사결정을 최적화하는 것은 여전히 어려우며, 이는 현재 방법들이 대부분 순수 반응형이기 때문입니다. 이는 장기적인 궤적에 대한 탐색과 크레딧 할당 (credit assignment) 을 모두 약화시킵니다. 본 연구에서는 에이전트 강화학습 (RL) 에 명시적인 궤적 수준의 전략을 도입하는 간단한 프레임워크인 전략적 궤적 추상화 (Strategic Trajectory Abstraction, StraTA) 를 제시합니다. StraTA 는 초기 작업 상태에서 컴팩트한 전략을 샘플링하고, 후속 행동은 해당 전략에 조건부이며, 계층적 GRPO 스타일 롤아웃 설계로 전략 생성과 행동 실행을 함께 학습합니다. 이는 다양한 전략 롤아웃과 중요한 자기 판단 (critical self-judgment) 으로 추가적으로 향상됩니다. ALFWorld, WebShop, SciWorld 의 실험에서 StraTA 는 강력한 베이스라인에 비해 샘플 효율성과 최종 성능을 일관되게 개선합니다. StraTA 는 ALFWorld 에서 93.1% 의 성공률을 달성하고, WebShop 에서 84.2% 의 성공률을 달성했습니다. SciWorld 에서는 63.5% 의 종합 점수를 획득하여 최첨단 폐쇄형 소스 모델을 능가했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0