한 개의 레이어로 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 대등할 수 있는가
요약
강화학습(RL) 사후 학습 시 모든 파라미터를 업데이트할 필요 없이, 특정 단일 Transformer 레이어 학습만으로도 전체 학습과 대등하거나 더 나은 성능을 낼 수 있음을 입증한 연구입니다. RL 이득이 모델의 중간 레이어에 집중되어 있다는 '레이어 기여도' 개념을 제시합니다.
핵심 포인트
- 단일 레이어 학습만으로 전체 파라미터 RL 학습 이득의 대부분 회복 가능
- RL 이득은 Transformer 스택의 중간 레이어에 집중되는 경향
- 입력 및 출력단 근처 레이어의 기여도는 상대적으로 낮음
- Qwen 모델군 및 GRPO 등 다양한 알고리즘에서 일관된 패턴 확인
강화학습 (RL)은 거대 언어 모델 (LLMs)의 사후 학습 (post-training)에서 핵심적인 구성 요소가 되었지만, RL 적응 (adaptation)이 Transformer 레이어 전반에 걸쳐 어떻게 분산되는지에 대해서는 거의 알려진 바가 없습니다. 기존 방식들은 일반적으로 모든 모델 파라미터를 균일하게 업데이트하며, 이는 RL 사후 학습 과정에서 얻어지는 이득에 모든 레이어가 유사하게 기여한다는 것을 암묵적으로 가정합니다. 본 연구에서는 RL 학습에 대한 체계적인 레이어별 연구를 통해 이러한 가설에 도전합니다. 놀랍게도, 우리는 단일 Transformer 레이어를 학습하는 것만으로도 전체 파라미터 RL 학습을 통해 달성된 이득의 대부분을 회복할 수 있으며, 어떤 경우에는 이를 능가하기까지 한다는 것을 발견했습니다. 이 현상을 정량화하기 위해, 우리는 특정 레이어를 독립적으로 학습했을 때 전체 RL 개선 사항 중 어느 정도의 비율을 회복하는지를 측정하는 '레이어 기여도 (layer contribution)'라는 개념을 도입합니다. 두 가지 모델 제품군 (Qwen3, Qwen2.5), 세 가지 RL 알고리즘 (GRPO, GiGPO, Dr. GRPO), 그리고 수학적 추론, 코드 생성, 에이전트 의사결정을 포함한 여러 작업 도메인에 걸친 7개의 모델을 대상으로 조사한 결과, 우리는 매우 안정적인 패턴을 관찰했습니다. RL 이득은 Transformer 레이어 중 아주 작은 하위 집합, 그리고 많은 경우 단 하나의 레이어에 매우 집중되어 있습니다. 더욱 놀라운 점은 동일한 구조적 패턴이 일관되게 나타난다는 것입니다. 기여도가 높은 레이어들은 Transformer 스택의 중간 부분에 집중되어 있는 반면, 입력 및 출력단 근처의 레이어들은 기여도가 상당히 낮았습니다. 결과적으로 도출된 레이어 순위는 데이터셋, 작업, 모델 제품군 및 RL 알고리즘 전반에 걸쳐 강력한 상관관계를 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기