정확성에서 선호도로: 개인화된 에이전트 강화학습 (Personalized Agentic Reinforcement Learning)을 위한

에이전트 강화학습 (Agentic RL)은 명확한 성공 신호가 있는 작업에서 강력한 진전을 이루었습니다. 그러나 많은 실제 에이전트 애플리케이션은 사용자 조건부 행동 (user-conditioned behavior)을 필요로 합니다. 즉, 동일한 질의라도 사용자마다 서로 다른 계획 전략 (planning strategies)과 도구 사용 (tool-use) 결정을 요구할 수 있습니다. 이러한 설정은 몇 가지 핵심적인 과제를 제기합니다: 일반적인 보상 (generic rewards)은 이질적인 사용자 선호도를 포착할 수 없고, 관찰된 행동은 순응 효과 (conformity effects)와 얽혀 있으며, 평면적인 메모리 (flat memories)는 개인화된 기술 검색 (personalized skill retrieval)을 지원할 수 없다는 점입니다. 이를 위해, 우리는 훈련 시간 최적화에 개인화를 내장하는 통합된 개인화 에이전트 강화학습 (Personalized Agentic RL) 프레임워크를 제안합니다. 그 핵심은 extit{개인화된 앵커 보상-분리 정책 최적화} ( extbf{PARPO, Personalized Anchor Reward-Decoupled Policy Optimization})로, 이는 일반적인 작업 품질 보상 (task-quality rewards)을 개인화된 선호도 보상 (preference rewards)으로부터 분리하고, 이질적인 보상 규모 하에서 학습을 안정화하기 위해 사용자별 앵커 (user-specific anchors)를 사용합니다. 나아가, 우리는 개인화된 감독과 선호도 정렬 기술 검색 (preference-aligned skill retrieval)을 위해 2단계 선호도 분리 보상 모델 (two-stage preference-disentangled reward model)과 extit{선호도 정렬 기술 진화 그래프 메모리} ( extbf{PSGM, Preference-Aligned Skill Evolution Graph Memory})를 도입합니다. 이들은 함께 선호도 식별, 정책 최적화, 그리고 구조화된 기술 축적의 폐쇄 루프 (closed loop)를 형성합니다. ETAPP, ETAPP-Hard, 그리고 SJAgent에 대한 실험 결과, 우리의 프레임워크가 강력한 메모리 및 강화학습 (RL) 베이스라인들을 일관되게 능가함을 보여줍니다. 코드와 데이터는 보충 자료에 포함되어 있습니다.

Insights

정확성에서 선호도로: 개인화된 에이전트 강화학습 (Personalized Agentic Reinforcement Learning)을 위한

요약

핵심 포인트

댓글

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Microsoft와 Mistral, 기업용 AI 배포를 위한 파트너십 확대

Alphabet 실적 발표를 앞두고 반도체 랠리가 주춤하며 Nasdaq 선물 하락

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Microsoft와 Mistral, 기업용 AI 배포를 위한 파트너십 확대

Alphabet 실적 발표를 앞두고 반도체 랠리가 주춤하며 Nasdaq 선물 하락