arXiv논문2026. 05. 08. 12:48

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory

요약

본 연구는 LLM 기반 에이전트의 장기적 의사결정 문제를 해결하기 위해 '전략적 궤적 추상화(StraTA)'라는 프레임워크를 제안합니다. StraTA는 초기 작업 상태에서 컴팩트한 전략을 샘플링하고, 후속 행동은 이 전략에 조건부로 결정하며, 계층적 GRPO 스타일의 롤아웃 설계를 통해 전략 생성과 행동 실행을 동시에 학습합니다. 실험 결과, StraTA는 ALFWorld, WebShop, SciWorld 등 다양한 환경에서 기존 강력한 베이스라인 모델들을 능가하는 높은 성공률과 샘플 효율성을 보여주었습니다.

핵심 포인트

LLM 에이전트의 장기적 의사결정 최적화에 어려움이 있으며, 이는 순수 반응형 접근 방식 때문입니다.
StraTA는 명시적인 궤적 수준의 전략을 도입하여 에이전트 강화학습(RL)에 구조를 부여합니다.
핵심 메커니즘은 초기 상태에서 컴팩트한 '전략'을 샘플링하고, 후속 행동을 이 전략에 조건부로 만드는 것입니다.
계층적 GRPO 스타일의 롤아웃 설계를 통해 전략 생성과 행동 실행을 통합적으로 학습합니다.

대규모 언어 모델 (LLMs) 은 점차 상호작용 에이전트로 사용되고 있지만, 장기적 의사결정을 최적화하는 것은 여전히 어려우며, 이는 현재 방법들이 대부분 순수 반응형이기 때문입니다. 이는 장기적인 궤적에 대한 탐색과 크레딧 할당 (credit assignment) 을 모두 약화시킵니다. 본 연구에서는 에이전트 강화학습 (RL) 에 명시적인 궤적 수준의 전략을 도입하는 간단한 프레임워크인 전략적 궤적 추상화 (Strategic Trajectory Abstraction, StraTA) 를 제시합니다. StraTA 는 초기 작업 상태에서 컴팩트한 전략을 샘플링하고, 후속 행동은 해당 전략에 조건부이며, 계층적 GRPO 스타일 롤아웃 설계로 전략 생성과 행동 실행을 함께 학습합니다. 이는 다양한 전략 롤아웃과 중요한 자기 판단 (critical self-judgment) 으로 추가적으로 향상됩니다. ALFWorld, WebShop, SciWorld 의 실험에서 StraTA 는 강력한 베이스라인에 비해 샘플 효율성과 최종 성능을 일관되게 개선합니다. StraTA 는 ALFWorld 에서 93.1% 의 성공률을 달성하고, WebShop 에서 84.2% 의 성공률을 달성했습니다. SciWorld 에서는 63.5% 의 종합 점수를 획득하여 최첨단 폐쇄형 소스 모델을 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory

요약

핵심 포인트

댓글