arXiv논문2026. 06. 10. 11:17

표현 인지형 이득 추정: 보상 모델은 스칼라 출력 이상의 정보를 제공합니다

요약

RLHF 과정에서 스칼라 보상의 한계를 극복하기 위해 보상 모델(RM)의 은닉 상태를 활용하는 GraphAE 기법을 제안합니다. 그래프 기반 이득 추정을 통해 응답 간의 유사성을 반영함으로써 더 정교한 선호도 학습을 가능하게 합니다.

핵심 포인트

스칼라 보상 대신 RM의 은닉 상태를 활용한 풍부한 정보 활용
GraphAE를 통한 그래프 기반의 정교한 이득 추정 방식 제안
GRPO, GSPO, RLOO 등 기존 RL 알고리즘과 원활한 통합 가능
Arena-Hard, AlpacaEval 등 주요 벤치마크에서 성능 향상 입증

현재의 인간 피드백 기반 강화학습 (RLHF) 방법들은 주로 학습된 보상 모델 (RM)의 스칼라 (scalar) 보상에 의존합니다. 이러한 방식은 효과적이긴 하지만, 스칼라 보상은 종종 노이즈가 많고 세밀한 선호도 차이를 포착하지 못하는 반면, RM의 은닉 상태 (hidden states)는 더 풍부한 의미론적 및 선호도 정보를 인코딩하고 있습니다. 본 논문에서는 RM의 은닉 상태를 활용하여 이를 보조 신호로 모델링함으로써 더 나은 이득 추정 (advantage estimation)을 수행하는 표현 인지형 이득 추정 (representation-aware advantage estimation)을 소개합니다. 구체적으로, 우리는 그래프 기반 이득 추정 (Graph-based Advantage Estimation, GraphAE)을 제안하며, 샘플링된 각 그룹을 하나의 그래프로 취급합니다. 여기서 노드 (nodes)는 응답 (responses)에 해당하며, 에지 (edges)는 RM 은닉 공간에서의 유사성을 포착합니다. 그 후 그래프 전파 (graph propagation)를 통해 이득 (advantages)을 계산하여, 각 샘플이 이웃으로부터 문맥 정보 (contextual information)를 통합할 수 있도록 합니다. GraphAE는 경량화되어 있으며 기존의 그룹 기반 강화학습 (RL) 알고리즘에 원활하게 통합될 수 있습니다. 우리는 GraphAE를 GRPO, GSPO 및 RLOO에 적용하였으며, 다양한 모델과 벤치마크에서 광범위한 실험을 수행했습니다. 실증적 결과에 따르면 세 가지 벤치마크 모두에서 일관된 개선을 보였으며, Arena-Hard-v0.1에서 최대 +6.3, AlpacaEval 2.0에서 +8.27, MT-Bench에서 +0.22의 성능 향상을 기록했습니다. 이러한 결과는 RM의 표현 (representations)을 활용하는 것이 더욱 샘플 효율적이고 견고한 RLHF로 이어진다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

표현 인지형 이득 추정: 보상 모델은 스칼라 출력 이상의 정보를 제공합니다

요약

핵심 포인트

댓글