arXiv논문2026. 04. 28. 17:33

DPEPO: LLM 기반 에이전트를 위한 다양성 병렬 탐색 정책 최적화

요약

본 논문은 기존의 단일 환경 상호작용에 국한된 LLM 에이전트의 한계를 극복하기 위해, 여러 환경을 동시에 탐색하고 교차 궤적 경험을 공유할 수 있는 새로운 패러다임을 제시합니다. 이를 기반으로, 다양한 병렬 탐색을 장려하는 강화학습 알고리즘인 DPEPO를 제안합니다. DPEPO는 초기 SFT와 계층적 보상 체계를 결합하여 행동 중복을 방지하고 광범위한 탐색을 촉진하며, ALFWorld 및 ScienceWorld에서 SOTA 성능을 입증했습니다.

핵심 포인트

기존 LLM 에이전트의 단점: 순차적 '추론-행동' 패러다임은 환경 상호작용이 단일하고 제한적입니다.
새로운 접근 방식: 여러 환경을 동시에 상호작용하고 교차 궤적 경험을 공유하는 병렬 탐색 패러다임을 도입했습니다.
DPEPO 알고리즘의 구성: 초기 SFT를 통해 기본 능력을 확보한 후, 계층적 보상(Hierarchical Reward) 기반 RL로 미세 조정합니다.
핵심 보상 설계: '다양성 행동 보상' 및 '다양성 상태 전이 보상'을 도입하여 행동 중복을 패널티하고 탐색 범위를 넓힙니다.
실험 결과: ALFWorld와 ScienceWorld에서 강력한 순차적 베이스라인 대비 SOTA 성공률과 효율성을 모두 달성했습니다.

순차적 '추론-이후-행동(reason-then-act)' 패러다임을 따르는 대규모 언어 모델 (LLM) 에이전트는 많은 복잡한 작업에서 뛰어난 성능을 달성했습니다. 그러나 이러한 방법들은 한 단계당 단일 환경과만 상호작용함으로써 탐색 능력이 제한적이고 환경에 대한 이해가 불완전한 단점을 겪습니다. 본 논문에서는 에이전트가 여러 환경을 동시에 상호작용하고 교차 궤적 (cross-trajectory) 경험을 공유할 수 있는 새로운 패러다임을 먼저 소개합니다. 이 패러다임을 바탕으로, 우리는 에이전트가 다양한 병렬 탐색 (diverse parallel exploration) 을 수행하도록 장려하는 강화학습 (RL) 알고리즘인 DPEPO 를 제안합니다. DPEPO 는 두 단계로 구성됩니다: 초기 감독 학습 미세 조정 (SFT) 은 기본적인 병렬 추론과 행동 생성을 부여하고, 이어지는 강화학습 단계에서는 계층적 보상 (hierarchical reward) 체계가 적용됩니다. 우리는 병렬 궤적 수준의 성공 보상 (parallel trajectory-level success reward) 과 두 가지 단계 수준의 보상인 다양성 행동 보상 (Diverse Action Reward) 및 다양성 상태 전이 보상 (Diverse State Transition Reward) 을 설계하여, 행동 중복을 적극적으로 패널티 부과하고 광범위한 탐색을 촉진합니다. ALFWorld 와 ScienceWorld 에서 수행한 광범위한 실험 결과, DPEPO 는 최첨단 (SOTA) 성공률을 달성하면서도 강력한 순차적 베이스라인과 비교할 수 있는 효율성을 유지했습니다. (소스 코드는 https://github.com/LePanda026/Code-for-DPEPO 에서 이용 가능함)

AI 자동 생성 콘텐츠

원문 바로가기

DPEPO: LLM 기반 에이전트를 위한 다양성 병렬 탐색 정책 최적화

요약

핵심 포인트

댓글