검증 가능한 보상을 활용한 탠덤 강화학습 (Tandem Reinforcement Learning)
요약
LLM의 추론 능력을 높이는 RLVR 과정에서 발생하는 모델 간 호환성 문제를 해결하기 위해 탠덤 강화학습(TRL)을 제안합니다. 시니어 모델과 주니어 모델이 공동으로 추론을 생성하며 학습함으로써, 주니어 모델이 이해하기 쉬운 사고 사슬을 형성하고 분포 드리프트를 줄입니다.
핵심 포인트
- 시니어와 주니어 모델이 공동으로 롤아웃을 생성하는 탠덤 학습 패러다임 제안
- RLVR 환경에서 주니어 모델과의 핸드오프 견고성 및 가독성 향상
- Qwen3-4B-Instruct 실험을 통해 기존 GRPO와 대등한 성능 입증
- 모델 간 분포 드리프트 감소 및 인간과의 호환성 개선 효과 확인
검증 가능한 보상을 활용한 강화학습 (Reinforcement learning with verifiable rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLM)의 추론 능력을 크게 향상시켜, 경시대회 수학과 같은 영역에서 전문가 또는 초인적인 성능에 도달하게 했습니다. 그러나 더 약한 에이전트와 인간이 실제로 이 능력을 활용할 수 있는지 여부는 훨씬 불확실하며, RLVR은 가독성 저하나 언어 혼용과 같은 특이한 패턴으로 추론이 편향되는 현상이 기록되어 있습니다. 탠덤 학습 (Tandem training)은 이러한 호환성 문제를 목표로 최근 도입된 패러다임입니다. 즉, 훈련된 더 강력한 시니어 (senior) 모델이 동결된(frozen) 더 약한 주니어 (junior) 모델과 함께 각 롤아웃 (rollout)을 공동 생성하며, 두 모델은 하나의 팀으로서 보상을 받습니다. 이를 통해 시니어 모델은 주니어 모델이 따라올 수 있는 방식으로 추론하도록 유도됩니다. 하지만 이 패러다임은 지금까지 개념 증명 (proof-of-concept) 설정에서만 입증되었으며, 현대적인 RLVR 파이프라인의 긴 사고 사슬 (chain of thought)로 확장 가능한지는 미지수로 남아 있습니다. 본 연구에서는 탠덤 학습 패러다임을 RLVR로 확장하는 탠덤 강화학습 (Tandem Reinforcement Learning, TRL)을 제안합니다. TRL에서는 시니어와 동결된 주니어가 확률적으로 교대로 추론을 공동 생성하며, 결과물에 대해 보상이 주어지고, 시니어 모델에 표준 GRPO 손실 (loss)이 적용됩니다. 경시대회 수학 데이터를 사용하여 Qwen3-4B-Instruct를 훈련한 결과, TRL은 단독 추론 능력 면에서 기존의 GRPO와 대등한 성능을 보이면서도, 동일한 롤아웃 구조로부터 세 가지 특성이 동시에 나타남을 확인했습니다: 주니어 모델과의 더 강력한 핸드오프 (handoff) 견고성, 주니어 모델로부터의 분포 드리프트 (distributional drift) 감소, 그리고 주니어 모델이 더 읽기 쉬운 사고 사슬 (chain-of-thought)입니다. 우리의 결과는 다중 모델 간의 통신 및 인간과의 호환성 측면에서 실질적인 이점을 제공하는 RLVR의 유망한 경로를 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기