arXiv논문2026. 04. 29. 12:37

오류가 유익할 수 있을 때: 정책 경사 (Policy Gradient) 를 위한 불완전한 보상 분류

요약

본 연구는 언어 모델 학습에서 흔히 사용되는 불완전한 대용 보상(Imperfect Proxy Rewards)의 한계를 다룹니다. 기존 방식은 모든 보상 오류를 유해하게 취급하지만, 본 논문은 참값으로부터의 편차가 항상 부정적이지 않음을 이론적으로 분석합니다. 특히 정책 경사 최적화 과정에서 발생하는 일부 보상 오류는 오히려 모델이 평균적인(mediocre) 성능에 머무르는 것을 방지하여 무해하거나 심지어 유익할 수 있음을 입증했습니다.

핵심 포인트

언어 모델 학습은 참값 보상이 어려워 불완전한 대용 보상에 의존한다.
보상 오류를 단순히 '유해함'으로만 간주하는 기존의 평가 방식에 도전한다.
일부 보상 오류는 정책이 평균적인 성능에 머무르는 것을 방지하여 오히려 긍정적 영향을 줄 수 있다.
인간 피드백 기반 강화학습(RLHF)을 위한 새로운 보상 모델 평가 지표를 제안하며, 이는 기존의 순위 정확도보다 언어 모델 성능과 더 잘 상관관계를 보인다.
대용 보상 함수의 효과성은 초기 정책 및 학습 알고리즘과의 상호작용에 크게 의존한다.

강화학습 (Reinforcement Learning) 을 통한 언어 모델 (Language Models) 학습은 정밀하게 의도된 행동을 정의하는 참값 (Ground Truth) 보상이 거의 이용 불가능하기 때문에, 종종 불완전한 대용 보상 (Imperfect Proxy Rewards) 에 의존합니다. 보상 품질을 평가하는 표준 지표인 순위 정확도 (Ranking Accuracy) 와 같은 척도는 잘못된 보상을 엄격히 유해한 것으로 취급합니다. 그러나 본 연구에서는 참값으로부터의 모든 편차가 동일하지 않음을 강조합니다. 정책 경사 (Policy Gradient) 최적화 과정에서 확률이 집중되는 출력을 이론적으로 분석함으로써, 우리는 보상 오류를 참값 보상 증가에 미치는 영향에 따라 분류합니다. 분석 결과, 보상 오류는 전통적으로 유해한 것으로 간주되어 왔지만, 정책이 mediocre(보통의) 수준의 참값 보상을 가진 출력 주변에 머무르는 것을 방지함으로써 무해하거나 심지어 유익할 수도 있음을 입증했습니다. 이어 우리는 이론의 두 가지 실용적 함의를 제시합니다. 첫째, 인간 피드백 기반 강화학습 (RLHF) 에 대해 보상 오류의 유해성을 고려한 보상 모델 평가 지표를 개발합니다. 표준 순위 정확도와 비교하여 이러한 지표는 RLHF 후 언어 모델 성능과 더 잘 상관관계를 보이지만, 보상 모델을 견고하게 평가하는 데는 여전히 격차가 존재합니다. 둘째, 검증 가능한 보상 (Verifiable Rewards) 이 있는 환경에서의 보상 설계에 대한 통찰을 제공합니다. 우리의 결과에 내재된 핵심 주제는 대용 보상 함수의 효과성이 초기 정책과 학습 알고리즘과의 상호작용에 크게 의존한다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

오류가 유익할 수 있을 때: 정책 경사 (Policy Gradient) 를 위한 불완전한 보상 분류

요약

핵심 포인트

댓글