GoLongRL: 멀티태스크 정렬을 통한 능력 중심의 롱 컨텍스트 강화학습 (Long Context Reinforcement Learning)
요약
GoLongRL은 검증 가능한 보상(RLVR)을 활용하여 롱 컨텍스트 능력을 강화하는 오픈 소스 기반의 사후 학습 레시피입니다. 9가지 작업 유형을 포괄하는 23K개의 능력 중심 데이터셋과 이질적인 멀티태스크 최적화를 위한 TMN-Reweight 알고리즘을 통해 기존 모델 대비 뛰어난 성능을 입증했습니다.
핵심 포인트
- 23K개의 RLVR 샘플 데이터셋과 전체 구축 파이프라인, 학습 코드를 완전 공개함
- 9가지 작업 유형의 분류 체계(Taxonomy)를 기반으로 실제 소스 문서와 합성 샘플을 결합한 데이터셋 구축
- TMN-Reweight를 통해 작업 간 보상 규모를 정렬하고 난이도 적응형 가중치를 부여하여 최적화 문제 해결
- 학습된 Qwen3-30B-A3B 모델이 DeepSeek-R1 및 Qwen3 대형 모델과 대등한 롱 컨텍스트 성능을 달성
우리는 검증 가능한 보상 (RLVR, Verifiable Rewards)을 활용한 롱 컨텍스트 (Long-context) 강화학습을 위한 완전 오픈 소스 기반의 능력 중심 사후 학습 (Post-training) 레시피인 GoLongRL을 제시합니다. 기존의 롱 컨텍스트 강화학습 (RL) 방법들은 데이터 구축을 점점 더 복잡한 검색 경로를 설계하는 문제로 취급하는 경우가 많으며, 이는 작업 범위의 균질화와 실제 롱 컨텍스트 요구 사항을 충분히 반영하지 못하는 보상 수식화로 이어집니다. 본 연구는 두 가지 기여를 제공합니다. (1) 완전 공개를 포함한 능력 중심의 데이터 구축. 우리는 23K개의 RLVR 샘플 데이터셋, 전체 구축 파이프라인, 그리고 모든 학습 코드를 공개합니다. 롱 컨텍스트 능력에 대한 분류 체계 (Taxonomy)에 따라 가이드된 이 데이터셋은 9가지 작업 유형을 포괄하며, 각 유형은 고유의 자연스러운 평가 지표와 쌍을 이룹니다. 이는 기존 코퍼스에서 선별된 오픈 소스 샘플과 책, 학술 논문, 다회차 대화와 같은 실제 소스 문서로부터 QA 쌍이 생성된 합성 샘플로 구성됩니다. 동일한 바닐라 (Vanilla) GRPO 설정 하에서, 우리의 데이터셋만으로도 폐쇄형 소스인 QwenLong-L1.5 데이터셋보다 뛰어난 성능을 보였습니다. 또한, 이 데이터로 학습된 우리의 Qwen3-30B-A3B 모델은 DeepSeek-R1-0528 및 Qwen3-235B-A22B-Thinking-2507과 대등한 롱 컨텍스트 성능을 전달하며, 이는 더 넓은 범위의 커버리지와 더 큰 보상 다양성이 롱 컨텍스트 능력 향상에 실질적인 도움이 된다는 것을 시사합니다. (2) 이질적인 멀티태스크 최적화를 위한 TMN-Reweight. 이질적인 보상으로부터 발생하는 최적화 문제를 해결하기 위해, 우리는 작업 간 보상 규모 정렬을 위한 작업 수준 평균 정규화 (Task-level mean normalization)와 더 신뢰할 수 있는 어드밴티지 추정 (Advantage estimation)을 위한 난이도 적응형 가중치 부여 (Difficulty-adaptive weighting)를 결합한 TMN-Reweight를 제안합니다. TMN-Reweight는 바닐라 GRPO 대비 평균 성능을 더욱 향상시키며, 보고된 평가 전반에 걸쳐 일반적인 능력을 유지하거나 개선합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기