arXiv논문2026. 05. 04. 20:00

ResRL: LLM 추론 능력 강화 및 분산성 보존을 위한 부정 샘플 투영 잔차 강화학습

요약

본 논문은 LLM의 추론 능력 향상과 생성 다양성 보존이라는 상충되는 목표를 해결하기 위해 '부정 샘플 투영 잔차 강화학습(ResRL)'을 제안합니다. ResRL은 부정 토큰의 숨겨진 표현을 저랭크 양성 하위 공간에 투영하고, 이 투영 잔차를 활용하여 부정 기울기를 조절함으로써 추론 능력을 높이면서도 다양성을 유지합니다. 다양한 벤치마크에서 기존 방법(NSR)보다 우수한 성능을 입증했습니다.

핵심 포인트

ResRL은 LLM의 추론 능력 향상과 생성 다양성 보존이라는 두 가지 목표를 동시에 달성하는 새로운 강화학습 프레임워크입니다.
핵심 메커니즘은 부정 토큰 표현을 저랭크 양성 하위 공간에 투영하고, 그 잔차(projection residuals)를 활용하여 모델의 기울기를 조절하는 것입니다.
이 방법은 기존의 Negative Sample Reinforcement (NSR)보다 우수한 성능을 보여주었으며, 수학, 코드 생성 등 다양한 작업에서 효과적입니다.

검증 가능한 보상 (Verifiable Rewards, RLVR) 을 활용한 강화학습은 대형 언어 모델 (Large Language Models, LLMs) 의 추론 능력을 향상시키지만, 양의 보상에 대한 과도한 인센티브 부여로 인해 생성 다양성 (generation diversity) 이 제한되는 경향이 있습니다. 부정 샘플 강화 (Negative Sample Reinforcement, NSR) 와 같은 방법은 부정 샘플의 벌칙을 가중치하여 이러한 문제를 완화하지만, 양의 응답과 부정의 응답 사이에 공유된 의미적 분포 (semantic distributions) 를 억제할 수 있습니다.

이 논문은 추론 능력을 향상시키면서도 다양성을 잃지 않도록 부정 샘플 투영 잔차 강화학습 (negative sample projection Residual Reinforcement Learning, ResRL) 을 제안합니다. ResRL 는 양의 응답과 부정의 응답 사이의 유사한 의미적 분포를 분리합니다. 우리는 Lazy Likelihood Displacement (LLD) 를 부정-양성 헤드 기울기 간섭 (negative-positive head-gradient interference) 과 연결하고, 보수적인 이점 재가중치 (conservative advantage reweighting) 를 안내하기 위해 단일 전방 proxy 를 유도합니다.

ResRL 는 부정 토큰의 숨겨진 표현을 SVD 기반의 저랭크 양성 하위 공간을 투영하고, 투영 잔차 (projection residuals) 를 사용하여 부정 기울기를 조절하여 추론 능력을 향상시키되 다양성을 보존합니다. 수학, 코드, 에이전트 작업, 함수 호출을 포함한 12 개의 벤치마크에서 평균적으로 강력한 기준선보다 우위를 보입니다. 특히 ResRL 는 Avg@16 에서 9.4%, Pass@128 에서 7.0% 로 NSR 를 넘어섭니다. 코드는 https://github.com/1229095296/ResRL.git 에서 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

ResRL: LLM 추론 능력 강화 및 분산성 보존을 위한 부정 샘플 투영 잔차 강화학습

요약

핵심 포인트

댓글