Computer Science > Machine Learning

제목: 한 개의 레이어로 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 일치할 수 있는가

View PDF HTML (experimental)초록: 강화학습 (Reinforcement learning, RL)은 거대 언어 모델 (Large Language Models, LLMs)의 사후 학습 (post-training)에서 핵심적인 구성 요소가 되었으나, RL 적응 (adaptation)이 Transformer 레이어 전반에 어떻게 분산되어 있는지에 대해서는 알려진 바가 거의 없습니다. 기존 방식들은 일반적으로 모든 모델 파라미터를 균일하게 업데이트하며, 이는 모든 레이어가 RL 사후 학습 과정에서 얻은 이득에 유사하게 기여한다는 점을 암묵적으로 가정합니다. 본 연구에서는 RL 학습에 대한 체계적인 레이어별 연구를 통해 이러한 가설에 도전합니다. 놀랍게도, 우리는 단일 Transformer 레이어를 학습시키는 것만으로도 전체 파라미터 RL 학습을 통해 달성된 이득의 대부분을 회복할 수 있으며, 어떤 경우에는 이를 능가할 수도 있다는 것을 발견했습니다. 이 현상을 정량화하기 위해, 우리는 특정 레이어를 독립적으로 학습시켰을 때 전체 RL 개선 사항 중 어느 정도의 비율을 회복하는지를 측정하는 '레이어 기여도 (layer contribution)'라는 지표를 도입합니다. 두 가지 모델 제품군 (Qwen3, Qwen2.5), 세 가지 RL 알고리즘 (GRPO, GiGPO, Dr. GRPO), 그리고 수학적 추론 (mathematical reasoning), 코드 생성 (code generation), 에이전트 의사 결정 (agentic decision-making)을 포함한 여러 태스크 도메인에 걸친 7개의 모델을 대상으로 조사한 결과, 우리는 매우 안정적인 패턴을 관찰했습니다: RL 이득은 Transformer 레이어의 작은 하위 집합, 그리고 많은 경우 단 하나의 레이어에 고도로 집중되어 있습니다. 더욱 놀라운 점은 동일한 구조적 패턴이 일관되게 나타난다는 것입니다: 기여도가 높은 레이어는 Transformer 스택의 중간 부분에 집중되어 있는 반면, 입력 및 출력단에 가까운 레이어는 기여도가 상당히 낮았습니다. 결과적으로 도출된 레이어 순위는 데이터셋, 태스크, 모델 제품군 및 RL 알고리즘 전반에 걸쳐 강력한 상관관계를 유지합니다.

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: community collaborators와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 우리 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 지원하는 프레임워크입니다.

arXivLabs와 함께하는 개인 및 조직 모두 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하고 있으며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있으신가요? arXivLabs에 대해 더 알아보세요.

Insights

한 개의 레이어로 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 일치할 수 있는가

요약

핵심 포인트