어떤 토큰이 중요한가? Relative Surprisal Index를 이용한 RLVR을 위한 적응형 토큰 선택
요약
RLVR(검증 가능한 보상을 사용하는 강화학습)의 성능을 높이기 위해 Relative Surprisal Index(RSI)라는 새로운 지표를 제안합니다. RSI는 토큰의 엔트로피와 확률을 결합하여 최적의 토큰을 선택하며, 이를 통해 학습의 안정성과 추론 성능을 동시에 개선합니다.
핵심 포인트
- RSI(Relative Surprisal Index)라는 정보 이론적 지표 도입
- 엔트로피와 확률의 갈등을 해결하는 적응형 토큰 필터링(RSI-S) 제안
- AIME, AMC 벤치마크에서 Qwen2.5 모델 성능 향상 입증
- GRPO 대비 avg@32 정확도를 2~3%p 개선
강화학습 (RL)은 거대 언어 모델 (LLMs)을 모방 기반 학습을 넘어 더욱 강력한 추론 능력으로 추진하는 강력한 도구가 되었습니다. 기존 접근 방식 중, 검증 가능한 보상을 사용하는 강화학습 (RLVR)은 LLM 추론을 발전시키기 위한 핵심적인 패러다임으로 부상했습니다. 이러한 경험적 성공에도 불구하고, 최근 연구들은 서로 다른 통찰을 제시하고 있습니다. 한 연구 흐름은 학습 과정에서 엔트로피 (entropy)가 높은 토큰 위치를 우선시할 것을 주장하는 반면, 다른 관점은 낮은 확률의 토큰이 그래디언트 (gradient) 업데이트를 지배하지 않도록 주의해야 한다고 경고합니다. 특히, 고엔트로피 토큰은 대개 낮은 확률과 상관관계가 있음에도 불구하고, 두 패러다임 모두 경험적으로 상당한 성능 향상을 가져옵니다. 본 연구에서 우리는 샘플링된 토큰의 확률이나 엔트로피를 개별적으로 평가하는 것만으로는 정책 최적화 (policy optimization) 역학을 포착하기에 불충분하다고 주장합니다. 이러한 갈등을 해결하기 위해, 우리는 토큰의 엔트로피와 선택된 토큰의 확률을 자연스럽게 결합하는 원칙적이고 정보 이론적인 지표인 Relative Surprisal Index (RSI)를 도입합니다. 우리는 완만한 조건 하에서 RSI가 선택된 로짓 (logit) 섭동 하에서의 로짓-그래디언트 노름 (logit-gradient norm)의 1차 변동과 예측 엔트로피 사이의 국소적 비율과 관련이 있음을 보여줍니다. RSI를 기반으로, 우리는 안정적인 RSI 구간 내의 토큰을 유지하는 엔트로피 적응형 토큰 필터링 방법인 RSI Selection (RSI-S)를 제안합니다. RSI-S는 이전의 모순된 패러다임들을 성공적으로 화해시키며, 불필요한 저서프라이절 (low-surprisal) 토큰과 불안정한 고서프라이절 (high-surprisal) 꼬리 토큰을 모두 필터링합니다. 경험적 평가 결과, RSI-S는 AIME 및 AMC 벤치마크에서 다양한 모델 규모 (Qwen2.5-1.5B, 3B, 7B)에 걸쳐 더 높은 avg@32 정확도를 달성했습니다. RSI-S는 GRPO 대비 avg@32 정확도를 2~3 퍼센트 포인트 향상시킵니다. 전반적으로, RSI는 RLVR 개선을 위한 유망한 관점을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기