추론 흔적에서 재사용 가능한 모듈로: 언어 모델 추론에서의 구성적 일반화(Compositional Generalization) 이해
요약
LLM의 사후 학습(Post-training) 과정에서 SFT와 RL이 구성적 일반화를 어떻게 유도하는지 이론적으로 분석합니다. SFT는 모듈의 재료를 공급하고, RL은 이를 분해하여 재사용 가능한 원자적 모듈로 식별 및 구성하는 역할을 수행함을 입증합니다.
핵심 포인트
- SFT와 RL은 구성적 일반화를 위해 상호 보완적인 역할을 수행함
- 추론 흔적은 기술과 라우팅을 포함하는 원자적 모듈로 구성됨
- RL은 SFT가 제공한 복합 흔적에서 모듈을 추출하고 재결합함
- 복합 흔적 학습이 개별 모듈 학습보다 강력한 일반화 성능을 보임
지도 미세 조정 (Supervised Fine-Tuning, SFT)과 강화 학습 (Reinforcement Learning, RL)을 결합한 사후 학습 (Post-training) 파이프라인은 대규모 언어 모델 (Large Language Models, LLMs)을 강력한 추론기로 변환하는 핵심 레시피로 등장했습니다. 우리는 이러한 결합된 성공이 계층적 잠재 선택 모델 (Hierarchical Latent Selection Model)을 통해 공식화되는 구성적 일반화 (Compositional Generalization)에 의해 주도된다고 주장합니다. 이 프레임워크에서 추론 흔적 (Reasoning Traces)은 기술 (Skills, 국소적 연산)과 라우팅 메커니즘 (Routing Mechanisms, 중간 정보가 선택, 재사용 및 구성되는 방식)을 모두 포함하는 재사용 가능한 원자적 모듈 (Atomic Modules)에 대응하는 일련의 이산 잠재 선택 변수 (Discrete Latent Selection Variables)에 의해 생성됩니다. 이 모델 내에서, 우리는 SFT와 RL이 비대칭적이고 상호 보완적인 역할을 한다는 것을 이론적으로 보여줍니다. 즉, SFT는 구성적 흔적 내에서 가공되지 않은 모듈 재료를 공급하고, RL은 해당 흔적을 분해하여 잠재적인 원자적 모듈을 식별하고 구성적 일반화를 가능하게 합니다. 우리는 이 이론을 검증하기 위해 통제된 실험을 설계했습니다. 우리의 결과는 RL이 SFT에 의해 공급된 복합 흔적 (Compound Traces)으로부터 원자적 모듈을 추출하고, 이를 재결합하여 새로운 구성(Configuration)을 해결할 수 있음을 입증합니다. 또한, 복합 흔적으로 학습하는 것이 개별적인 원자적 모듈로 학습하는 것보다 더 강력한 일반화 성능을 낸다는 것을 발견했습니다. 마지막으로, 우리는 SFT와 RL 데이터 사이의 관계를 조사하고, SFT는 구성적 흔적을 통해 모든 원자적 모듈의 커버리지를 보장하는 한편, RL은 탐색 (Exploration)을 유도하기 위해 SFT의 지지 범위 (Support) 밖의 새로운 구성에 집중하는 효과적인 프로토콜을 식별했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기