arXiv논문2026. 05. 08. 16:53

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability

요약

본 논문은 대형 언어 모델(LLM) 추론 개선에 사용되는 강화학습(RL)의 역할을 재고합니다. 연구 결과, RL이 새로운 능력을 가르치기보다는 기본 모델이 이미 가진 해법에 대한 확률 질량을 특정 지점에서 '희소하게' 보정하는 역할임을 밝혀냈습니다. 이로 인해 LLM 추론 개선은 능력 획득(Capability Acquisition)의 문제가 아니라, 불확실성이 높은 결정 지점에서의 정책 선택 최적화 문제임이 강조됩니다.

핵심 포인트

RL은 LLM에 새로운 능력을 가르치기보다, 기본 모델이 가진 해법에 대한 확률 질량을 재분배하는 역할을 한다.
RL의 유익한 영향은 토큰 수준 분석 결과, 불확실성이 높은 고 엔트로피 결정 지점(sparse policy selection)에서 집중된다.
전체 성능 향상을 위해서는 전체 텍스트를 보정할 필요 없이, 영향을 받는 소수의 위치(1~3%의 토큰)에만 표적 보정을 가하면 충분하다.
제안된 방법인 ReasonMaxxer는 RL-free 접근 방식으로, 엔트로피 게이트가 있는 결정 지점에서만 대조적 손실을 적용하여 기존 RL 성능과 동등하거나 그 이상의 결과를 달성한다.

강화학습 (RL) 은 대형 언어 모델의 추론을 개선하는 표준이 되었으나, 증거는 점점 더 강화학습이 새로운 전략을 가르치지 않는다는 것을 시사하고 있다. 오히려 강화학습은 기본 모델이 이미 포함하고 있는 해법에 대한 확률 질량을 재분배한다. 본 작업에서는 다음과 같은 질문을 던진다: 만약 강화학습이 모델이 이미 알고 있는 경로로만 모델을 유도한다면, 강화학습 최적화 루프 자체가 필수적인가? 토큰 수준 분석을 통해 여러 모델 계열과 RL 알고리즘을 대상으로 한 결과, 강화학습의 유익한 영향은 모델이 어떤 분기를 선택할지 불확실한 고 엔트로피 결정 지점에서 집중되는 희소하고 예측 가능한 보정임을 발견했다. 영향을 받는 토큰 위치는 1~3% 로만 제한되며, 촉진된 토큰은 항상 기본 모델의 상위 5 개 대안 내에 있으며, 해당 몇 개의 위치에서 표적 보정을 가하면 강화학습의 정확도 향상의 큰 부분을 인과적으로 회복할 수 있다. 반면 무작위 보정은 실패한다. 기본 모델 자체의 엔트로피는 RL 훈련된 모델을 사용하지 않고도 이러한 위치를 식별하며, 전체 보정은 저 차원이며 모델 파라미터의 아주 작은 분량으로 표현 가능하다. 이러한 발견들은 추론 개선을 능력 획득이 아닌 희소 정책 선택으로 재편한다. 우리는 이 통찰을 ReasonMaxxer 로 번역했으며, 이는 엔트로피 게이트된 결정 지점에서만 대조적 손실을 적용하는 최소한의 RL-free 방법이다. 수백 개의 기본 모델 롤아웃과 온라인 생성 없이 사용하며, 세 가지 모델 계열, 여섯 가지 스케일, 여섯 가지 수학 추론 벤치마크에서 ReasonMaxxer 는 전체 RL 성능을 일치하거나 초과한다. 이는 훈련 비용이 약 3 개 차원에서 감소하며, 수십 개의 문제와 분 단위의 단일 GPU 훈련만 필요하다.

AI 자동 생성 콘텐츠

원문 바로가기

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability

요약

핵심 포인트

댓글