어떤 토큰이 중요한가? Relative Surprisal Index를 이용한 RLVR을 위한 적응형 토큰 선택

강화학습 (RL)은 거대 언어 모델 (LLMs)을 모방 기반 학습을 넘어 더욱 강력한 추론 능력으로 추진하는 강력한 도구가 되었습니다. 기존 접근 방식 중, 검증 가능한 보상을 사용하는 강화학습 (RLVR)은 LLM 추론을 발전시키기 위한 핵심적인 패러다임으로 부상했습니다. 이러한 경험적 성공에도 불구하고, 최근 연구들은 서로 다른 통찰을 제시하고 있습니다. 한 연구 흐름은 학습 과정에서 엔트로피 (entropy)가 높은 토큰 위치를 우선시할 것을 주장하는 반면, 다른 관점은 낮은 확률의 토큰이 그래디언트 (gradient) 업데이트를 지배하지 않도록 주의해야 한다고 경고합니다. 특히, 고엔트로피 토큰은 대개 낮은 확률과 상관관계가 있음에도 불구하고, 두 패러다임 모두 경험적으로 상당한 성능 향상을 가져옵니다. 본 연구에서 우리는 샘플링된 토큰의 확률이나 엔트로피를 개별적으로 평가하는 것만으로는 정책 최적화 (policy optimization) 역학을 포착하기에 불충분하다고 주장합니다. 이러한 갈등을 해결하기 위해, 우리는 토큰의 엔트로피와 선택된 토큰의 확률을 자연스럽게 결합하는 원칙적이고 정보 이론적인 지표인 Relative Surprisal Index (RSI)를 도입합니다. 우리는 완만한 조건 하에서 RSI가 선택된 로짓 (logit) 섭동 하에서의 로짓-그래디언트 노름 (logit-gradient norm)의 1차 변동과 예측 엔트로피 사이의 국소적 비율과 관련이 있음을 보여줍니다. RSI를 기반으로, 우리는 안정적인 RSI 구간 내의 토큰을 유지하는 엔트로피 적응형 토큰 필터링 방법인 RSI Selection (RSI-S)를 제안합니다. RSI-S는 이전의 모순된 패러다임들을 성공적으로 화해시키며, 불필요한 저서프라이절 (low-surprisal) 토큰과 불안정한 고서프라이절 (high-surprisal) 꼬리 토큰을 모두 필터링합니다. 경험적 평가 결과, RSI-S는 AIME 및 AMC 벤치마크에서 다양한 모델 규모 (Qwen2.5-1.5B, 3B, 7B)에 걸쳐 더 높은 avg@32 정확도를 달성했습니다. RSI-S는 GRPO 대비 avg@32 정확도를 2~3 퍼센트 포인트 향상시킵니다. 전반적으로, RSI는 RLVR 개선을 위한 유망한 관점을 제공합니다.

Insights

어떤 토큰이 중요한가? Relative Surprisal Index를 이용한 RLVR을 위한 적응형 토큰 선택

요약

핵심 포인트

댓글

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)