한 개의 레이어로 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 대등할 수 있는가

강화학습 (RL)은 거대 언어 모델 (LLMs)의 사후 학습 (post-training)에서 핵심적인 구성 요소가 되었지만, RL 적응 (adaptation)이 Transformer 레이어 전반에 걸쳐 어떻게 분산되는지에 대해서는 거의 알려진 바가 없습니다. 기존 방식들은 일반적으로 모든 모델 파라미터를 균일하게 업데이트하며, 이는 RL 사후 학습 과정에서 얻어지는 이득에 모든 레이어가 유사하게 기여한다는 것을 암묵적으로 가정합니다. 본 연구에서는 RL 학습에 대한 체계적인 레이어별 연구를 통해 이러한 가설에 도전합니다. 놀랍게도, 우리는 단일 Transformer 레이어를 학습하는 것만으로도 전체 파라미터 RL 학습을 통해 달성된 이득의 대부분을 회복할 수 있으며, 어떤 경우에는 이를 능가하기까지 한다는 것을 발견했습니다. 이 현상을 정량화하기 위해, 우리는 특정 레이어를 독립적으로 학습했을 때 전체 RL 개선 사항 중 어느 정도의 비율을 회복하는지를 측정하는 '레이어 기여도 (layer contribution)'라는 개념을 도입합니다. 두 가지 모델 제품군 (Qwen3, Qwen2.5), 세 가지 RL 알고리즘 (GRPO, GiGPO, Dr. GRPO), 그리고 수학적 추론, 코드 생성, 에이전트 의사결정을 포함한 여러 작업 도메인에 걸친 7개의 모델을 대상으로 조사한 결과, 우리는 매우 안정적인 패턴을 관찰했습니다. RL 이득은 Transformer 레이어 중 아주 작은 하위 집합, 그리고 많은 경우 단 하나의 레이어에 매우 집중되어 있습니다. 더욱 놀라운 점은 동일한 구조적 패턴이 일관되게 나타난다는 것입니다. 기여도가 높은 레이어들은 Transformer 스택의 중간 부분에 집중되어 있는 반면, 입력 및 출력단 근처의 레이어들은 기여도가 상당히 낮았습니다. 결과적으로 도출된 레이어 순위는 데이터셋, 작업, 모델 제품군 및 RL 알고리즘 전반에 걸쳐 강력한 상관관계를 유지합니다.

Insights

한 개의 레이어로 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 대등할 수 있는가

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화