arXiv논문2026. 06. 03. 11:31

강화학습 (RL)에서 다양한 행동을 유도하기 위한 보상 불확실성 활용

요약

강화학습에서 보상의 불확실성을 활용하여 에이전트의 행동 다양성을 유도하는 새로운 프레임워크를 제안합니다. 기존의 엔트로피 정규화 방식과 달리, 보상을 분포로 정의하여 성능 저하 없이 자연스러운 다양성을 확보합니다.

핵심 포인트

보상 함수를 스칼라가 아닌 분포로 대체하여 불확실성 대응
기대 보상을 희생하지 않고도 보정된 행동 다양성 구현
컨텍스츄얼 밴딧 설정에서 원칙적인 그래디언트 추정기 도출
기존 정책 그래디언트 및 행동 집합 접근 방식의 일반화 증명

전통적인 강화학습 (Reinforcement Learning, RL)은 일반적으로 스칼라 보상 (scalar reward)의 기대 합계를 최대화하는 결정론적 정책 (deterministic policy)을 추구합니다. 그러나 언어 모델 미세 조정 (fine-tuning)이나 과학적 발견과 같은 현대적 응용 분야에서는 다양성 (diversity)이 요구됩니다. 엔트로피 정규화 (entropy regularization)나 다양성 보너스 (diversity bonuses)와 같은 기존의 해결책들은 종종 확률성 (stochasticity)을 위해 성능을 희생해야 하는 취약한 트레이드오프 (trade-off)를 요구하거나, 정책 순위를 잘못 정렬할 수 있는 휴리스틱 지표 (heuristic metrics)에 의존합니다. 우리는 다양성이 보상의 불확실성 (uncertainty)에 대한 합리적인 반응으로 더 자연스럽게 이해될 수 있다고 주장합니다. 모호한 선호도나 불완전한 보상 모델 (reward models)의 경우처럼 보상 함수 (reward function)를 완벽하게 알 수 없을 때, 단일 행동에 전념하는 것은 최적이 아닐 수 있습니다. 이를 바탕으로, 우리는 스칼라 보상을 보상 함수들에 대한 분포 (distribution)로 대체하고, 행동 집합 (sets of actions)에 대해 비선형 목적 함수 (non-linear objective)를 적용함으로써 RL 목적 함수의 근본적인 재정의를 제안합니다. 그 결과, 보정된 행동 다양성 (calibrated behavioural diversity)이 자연스럽게 나타나고, 보상 함수 분포를 통해 제어 가능한 상태를 유지하며, 기대 보상을 희생하지 않고도 얻을 수 있는 프레임워크가 도출됩니다. 컨텍스츄얼 밴딧 (contextual bandit) 설정에 집중하여, 우리는 이 목적 함수를 위한 원칙적인 그래디언트 추정기 (gradient estimator)를 도출하고, 우리의 정식화가 바닐라 정책 그래디언트 (vanilla policy gradient)와 최근 개발된 행동 집합 (action-set) 접근 방식 모두를 자연스럽게 일반화함을 증명합니다. 우리의 실험 결과는 이 프레임워크가 문제의 전통적인 정식화가 에이전트 행동의 원하는 폭을 유도하는 데 실패하는 복잡한 RL 작업에 대해 견고하고 이론적으로 근거가 있는 대안을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL)에서 다양한 행동을 유도하기 위한 보상 불확실성 활용

요약

핵심 포인트

댓글