ResRL: LLM 추론 능력 강화 및 분산성 보존을 위한 부정 샘플 투영 잔차 강화학습
요약
본 논문은 LLM의 추론 능력 향상과 생성 다양성 보존이라는 상충되는 목표를 해결하기 위해 '부정 샘플 투영 잔차 강화학습(ResRL)'을 제안합니다. ResRL은 부정 토큰의 숨겨진 표현을 저랭크 양성 하위 공간에 투영하고, 이 투영 잔차를 활용하여 부정 기울기를 조절함으로써 추론 능력을 높이면서도 다양성을 유지합니다. 다양한 벤치마크에서 기존 방법(NSR)보다 우수한 성능을 입증했습니다.
핵심 포인트
- ResRL은 LLM의 추론 능력 향상과 생성 다양성 보존이라는 두 가지 목표를 동시에 달성하는 새로운 강화학습 프레임워크입니다.
- 핵심 메커니즘은 부정 토큰 표현을 저랭크 양성 하위 공간에 투영하고, 그 잔차(projection residuals)를 활용하여 모델의 기울기를 조절하는 것입니다.
- 이 방법은 기존의 Negative Sample Reinforcement (NSR)보다 우수한 성능을 보여주었으며, 수학, 코드 생성 등 다양한 작업에서 효과적입니다.
검증 가능한 보상 (Verifiable Rewards, RLVR) 을 활용한 강화학습은 대형 언어 모델 (Large Language Models, LLMs) 의 추론 능력을 향상시키지만, 양의 보상에 대한 과도한 인센티브 부여로 인해 생성 다양성 (generation diversity) 이 제한되는 경향이 있습니다. 부정 샘플 강화 (Negative Sample Reinforcement, NSR) 와 같은 방법은 부정 샘플의 벌칙을 가중치하여 이러한 문제를 완화하지만, 양의 응답과 부정의 응답 사이에 공유된 의미적 분포 (semantic distributions) 를 억제할 수 있습니다.
이 논문은 추론 능력을 향상시키면서도 다양성을 잃지 않도록 부정 샘플 투영 잔차 강화학습 (negative sample projection Residual Reinforcement Learning, ResRL) 을 제안합니다. ResRL 는 양의 응답과 부정의 응답 사이의 유사한 의미적 분포를 분리합니다. 우리는 Lazy Likelihood Displacement (LLD) 를 부정-양성 헤드 기울기 간섭 (negative-positive head-gradient interference) 과 연결하고, 보수적인 이점 재가중치 (conservative advantage reweighting) 를 안내하기 위해 단일 전방 proxy 를 유도합니다.
ResRL 는 부정 토큰의 숨겨진 표현을 SVD 기반의 저랭크 양성 하위 공간을 투영하고, 투영 잔차 (projection residuals) 를 사용하여 부정 기울기를 조절하여 추론 능력을 향상시키되 다양성을 보존합니다. 수학, 코드, 에이전트 작업, 함수 호출을 포함한 12 개의 벤치마크에서 평균적으로 강력한 기준선보다 우위를 보입니다. 특히 ResRL 는 Avg@16 에서 9.4%, Pass@128 에서 7.0% 로 NSR 를 넘어섭니다. 코드는 https://github.com/1229095296/ResRL.git 에서 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기