arXiv논문2026. 06. 26. 10:46

LLM 에이전트를 위한 경험 규칙 및 정책의 공동 학습

요약

LLM 에이전트의 상호작용 경험을 활용하기 위해 자연어 규칙과 모델 정책을 동시에 업데이트하는 JERP 프레임워크를 제안합니다. 규칙 풀과 정책을 공동 학습함으로써 규칙의 최신성을 유지하고 에이전트의 의사 결정 성능을 향상시킵니다.

핵심 포인트

자연어 규칙과 모델 파라미터를 분리하지 않고 공동 학습하는 JERP 제안
규칙 풀이 진화하는 정책과 동기화되어 해석 가능성과 성능을 동시에 확보
AlfWorld 및 WebShop 환경 실험을 통해 복잡한 작업에서의 성능 향상 입증

다단계 상호작용 환경(multi-step interactive environments)에서의 LLM 에이전트에게 있어, 핵심적인 과제는 축적된 상호작용 경험을 효과적으로 활용하는 것입니다. 기존 연구들은 일반적으로 이러한 경험의 두 가지 활용 방식을 분리해 왔습니다. 즉, 나중에 프롬프팅(prompting)하기 위해 모델 외부에서 자연어 규칙(natural-language rules) 형태로 유지하거나, 궤적(trajectories)과 피드백을 사용하여 모델 파라미터(parameters)를 업데이트하는 방식입니다. 전자는 해석하기 쉽지만 진화하는 정책(policy)과 동기화되지 않을 수 있으며, 후자는 정책을 더 광범위하게 개선하지만 희소 보상(sparse-reward) 설정에서 국소적인 실수에 대한 수정은 제한적입니다. 우리는 동일한 상호작용 궤적으로부터 장기적인 경험 규칙 풀(experiential-rule pool)과 정책을 모두 업데이트하는 LLM 에이전트를 위한 경험 규칙 및 정책의 공동 학습(Joint Learning of Experiential Rules and Policies for LLM Agents, JERP)을 제안합니다. 의사 결정 시점에 JERP는 작업 관련 규칙을 검색하고, 상호작용 이력과 함께 해당 규칙을 바탕으로 에이전트를 조건화(conditioning)합니다. 각 에피소드(episode)가 끝난 후, 수집된 궤적을 사용하여 정책을 최적화하는 동시에, 현재의 롤아웃(rollouts)을 참조 성공 궤적(reference successful trajectories)과 비교함으로써 규칙 풀을 수정합니다. 이러한 결합은 규칙 풀이 진화하는 정책과 일치하도록 유지하는 동시에, 안정적이고 효과적인 행동이 모델 자체로 점진적으로 흡수될 수 있도록 합니다. AlfWorld 및 WebShop에서의 실험 결과, JERP는 복잡한 상호작용 작업의 의사 결정 성능에서 일관된 이득을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 에이전트를 위한 경험 규칙 및 정책의 공동 학습

요약

핵심 포인트

댓글