GoLongRL: 멀티태스크 정렬을 통한 능력 중심의 롱 컨텍스트 강화학습 (Long Context Reinforcement Learning)

우리는 검증 가능한 보상 (RLVR, Verifiable Rewards)을 활용한 롱 컨텍스트 (Long-context) 강화학습을 위한 완전 오픈 소스 기반의 능력 중심 사후 학습 (Post-training) 레시피인 GoLongRL을 제시합니다. 기존의 롱 컨텍스트 강화학습 (RL) 방법들은 데이터 구축을 점점 더 복잡한 검색 경로를 설계하는 문제로 취급하는 경우가 많으며, 이는 작업 범위의 균질화와 실제 롱 컨텍스트 요구 사항을 충분히 반영하지 못하는 보상 수식화로 이어집니다. 본 연구는 두 가지 기여를 제공합니다. (1) 완전 공개를 포함한 능력 중심의 데이터 구축. 우리는 23K개의 RLVR 샘플 데이터셋, 전체 구축 파이프라인, 그리고 모든 학습 코드를 공개합니다. 롱 컨텍스트 능력에 대한 분류 체계 (Taxonomy)에 따라 가이드된 이 데이터셋은 9가지 작업 유형을 포괄하며, 각 유형은 고유의 자연스러운 평가 지표와 쌍을 이룹니다. 이는 기존 코퍼스에서 선별된 오픈 소스 샘플과 책, 학술 논문, 다회차 대화와 같은 실제 소스 문서로부터 QA 쌍이 생성된 합성 샘플로 구성됩니다. 동일한 바닐라 (Vanilla) GRPO 설정 하에서, 우리의 데이터셋만으로도 폐쇄형 소스인 QwenLong-L1.5 데이터셋보다 뛰어난 성능을 보였습니다. 또한, 이 데이터로 학습된 우리의 Qwen3-30B-A3B 모델은 DeepSeek-R1-0528 및 Qwen3-235B-A22B-Thinking-2507과 대등한 롱 컨텍스트 성능을 전달하며, 이는 더 넓은 범위의 커버리지와 더 큰 보상 다양성이 롱 컨텍스트 능력 향상에 실질적인 도움이 된다는 것을 시사합니다. (2) 이질적인 멀티태스크 최적화를 위한 TMN-Reweight. 이질적인 보상으로부터 발생하는 최적화 문제를 해결하기 위해, 우리는 작업 간 보상 규모 정렬을 위한 작업 수준 평균 정규화 (Task-level mean normalization)와 더 신뢰할 수 있는 어드밴티지 추정 (Advantage estimation)을 위한 난이도 적응형 가중치 부여 (Difficulty-adaptive weighting)를 결합한 TMN-Reweight를 제안합니다. TMN-Reweight는 바닐라 GRPO 대비 평균 성능을 더욱 향상시키며, 보고된 평가 전반에 걸쳐 일반적인 능력을 유지하거나 개선합니다.

Insights

GoLongRL: 멀티태스크 정렬을 통한 능력 중심의 롱 컨텍스트 강화학습 (Long Context Reinforcement Learning)

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.