모든 토큰이 동일하게 학습하지 않는다: 어텐션 엔트로피가 RL 추론의 이질적인 신호를 밝히다
요약
본 연구는 대규모 언어 모델(LLM)의 강화학습(RL) 기반 사후 훈련에서 토큰 수준의 학습 신호가 균일하지 않다는 점에 주목하며, 어텐션 엔트로피를 활용하여 이러한 이질성을 분석합니다. 어텐션 엔트로피는 각 응답 토큰이 문맥적 지원을 얼마나 집중적으로 받는지 측정하는 지표로, 이를 통해 RL 최적화 과정에서 구조적인 패턴을 발견할 수 있습니다. 연구 결과는 단순히 평균적인 학습 신호만으로는 추론 과정의 중요한 이질성을 놓칠 수 있음을 시사합니다.
핵심 포인트
- 어텐션 엔트로피를 사용하여 LLM의 토큰별 강화학습(RL) 신호의 이질성 분석이 가능함.
- 어텐션 엔트로피는 각 응답 토큰에 대한 문맥적 지원의 집중도 또는 분산도를 측정하는 지표임.
- RL 최적화 과정에서 어텐션 엔트로피를 통해 구조적인 패턴을 발견할 수 있음.
- 토큰 평균화된 학습 신호만으로는 추론 단계에서의 중요한 이질성을 간과할 위험이 있음.
강화학습(RL) 기반의 사후 훈련은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 핵심 접근 방식이 되었지만, 토큰 수준의 학습 신호는 여전히 이해가 부족합니다. 본 연구에서는 어텐션 엔트로피를 통해 이러한 이질성을 연구하는데, 이는 각 응답 토큰에 대한 문맥적 지원이 얼마나 집중되어 있는지 또는 분산되어 있는지를 측정하는 지표입니다. 먼저 우리는 tok
Base는 가장 강력한 설정에서 34.39에서 37.40으로 유지되었습니다. 이러한 발견은 어텐션 엔트로피(attention entropy)가 토큰 수준의 강화학습(RL) 신호에서 최적화 관련 구조를 드러내며, 균일한 토큰 평균화는 학습 후 추론 과정에서의 의미 있는 이질성(heterogeneity)을 가릴 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기