정확성에서 선호도로: 개인화된 에이전트 강화학습 (Personalized Agentic Reinforcement Learning)을 위한
요약
사용자마다 다른 선호도와 계획 전략을 반영하기 위한 개인화된 에이전트 강화학습(PAR) 프레임워크를 제안합니다. PARPO 알고리즘을 통해 작업 품질과 개인 선호도 보상을 분리하여 학습 안정성을 높이고, PSGM 메모리를 통해 개인화된 기술 검색을 지원합니다.
핵심 포인트
- PARPO를 통한 작업 품질과 개인 선호도 보상의 분리 최적화
- 사용자별 앵커를 활용한 이질적 보상 규모 하에서의 학습 안정화
- PSGM을 도입하여 선호도 정렬 기반의 기술 진화 그래프 메모리 구축
- ETAPP 및 SJAgent 등 기존 베이스라인 대비 우수한 성능 입증
에이전트 강화학습 (Agentic RL)은 명확한 성공 신호가 있는 작업에서 강력한 진전을 이루었습니다. 그러나 많은 실제 에이전트 애플리케이션은 사용자 조건부 행동 (user-conditioned behavior)을 필요로 합니다. 즉, 동일한 질의라도 사용자마다 서로 다른 계획 전략 (planning strategies)과 도구 사용 (tool-use) 결정을 요구할 수 있습니다. 이러한 설정은 몇 가지 핵심적인 과제를 제기합니다: 일반적인 보상 (generic rewards)은 이질적인 사용자 선호도를 포착할 수 없고, 관찰된 행동은 순응 효과 (conformity effects)와 얽혀 있으며, 평면적인 메모리 (flat memories)는 개인화된 기술 검색 (personalized skill retrieval)을 지원할 수 없다는 점입니다. 이를 위해, 우리는 훈련 시간 최적화에 개인화를 내장하는 통합된 개인화 에이전트 강화학습 (Personalized Agentic RL) 프레임워크를 제안합니다. 그 핵심은 extit{개인화된 앵커 보상-분리 정책 최적화} ( extbf{PARPO, Personalized Anchor Reward-Decoupled Policy Optimization})로, 이는 일반적인 작업 품질 보상 (task-quality rewards)을 개인화된 선호도 보상 (preference rewards)으로부터 분리하고, 이질적인 보상 규모 하에서 학습을 안정화하기 위해 사용자별 앵커 (user-specific anchors)를 사용합니다. 나아가, 우리는 개인화된 감독과 선호도 정렬 기술 검색 (preference-aligned skill retrieval)을 위해 2단계 선호도 분리 보상 모델 (two-stage preference-disentangled reward model)과 extit{선호도 정렬 기술 진화 그래프 메모리} ( extbf{PSGM, Preference-Aligned Skill Evolution Graph Memory})를 도입합니다. 이들은 함께 선호도 식별, 정책 최적화, 그리고 구조화된 기술 축적의 폐쇄 루프 (closed loop)를 형성합니다. ETAPP, ETAPP-Hard, 그리고 SJAgent에 대한 실험 결과, 우리의 프레임워크가 강력한 메모리 및 강화학습 (RL) 베이스라인들을 일관되게 능가함을 보여줍니다. 코드와 데이터는 보충 자료에 포함되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기