arXiv논문2026. 06. 18. 11:03

보상 엔지니어링을 넘어: 긴 문맥 강화학습 (Long-Context Reinforcement Learning)을 위한 데이터 레시피

요약

긴 문맥 추론 능력을 향상시키기 위해 보상 엔지니어링 대신 데이터 중심의 접근 방식을 제안합니다. 검색, 증거 합성, 추론 작업을 포함한 8개의 데이터셋 레시피를 통해 Qwen 모델의 벤치마크 성능과 에이전트 작업 수행 능력을 크게 개선했습니다.

핵심 포인트

보상 엔지니어링보다 데이터 중심의 레시피가 긴 문맥 추론에 효과적임
검색, 다중 증거 합성, 추론을 포함한 8개의 데이터셋 구축
Qwen 모델의 7개 벤치마크에서 평균 3.2~7.2 포인트 성능 향상
에이전트 작업(GAIA, BrowseComp)으로의 성능 전이 입증

긴 문맥 추론 (Long-context reasoning)은 대규모 언어 모델 (LLM)의 필수적인 능력이며, 특히 긴 궤적 (trajectories)을 바탕으로 추론해야 하는 자율 에이전트 (autonomous agents)로 배포될 때 더욱 중요합니다. 최근 강화학습 (Reinforcement learning, RL)이 이러한 능력을 향상시키기 위한 지배적인 패러다임으로 부상했지만, 기존 연구들은 주로 보상 엔지니어링 (reward engineering)에 집중되어 있으며 다양한 훈련 데이터는 여전히 부족한 실정입니다. 우리는 이 문제를 데이터 중심 (data-centric) 관점에서 재검토하며, 최소한의 결과 기반 (outcome-based) GRPO 설정과 결합된 단순하지만 효과적인 데이터 레시피만으로도 긴 문맥 추론 능력을 실질적으로 개선하기에 충분함을 보여줍니다. 우리의 레시피는 검색 (retrieval), 다중 증거 합성 (multi-evidence synthesis), 추론 (reasoning)이라는 세 가지 상호 보완적인 작업군을 목표로 하며, 이를 위해 총 약 14,000개의 예시로 구성된 8개의 데이터셋을 구축하고 큐레이션했습니다. 세 가지 모델 (Qwen3-4B/8B/30B-A3B)에 대한 실험 결과, 7개의 긴 문맥 벤치마크에서 이전의 RL 훈련 세트를 능가하는 평균 +7.2/+3.2/+6.4 포인트의 성능 향상을 달성했습니다. 나아가 이러한 성능 향상이 에이전트 작업 (agentic tasks)으로 전이됨을 입증하였으며, 에이전트 튜닝된 모델에 우리의 데이터 레시피로 RL 훈련을 지속했을 때 GAIA는 +4.8, BrowseComp는 +7.0 포인트 향상되었습니다. 향후 연구를 촉진하기 위해 우리의 데이터셋을 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 엔지니어링을 넘어: 긴 문맥 강화학습 (Long-Context Reinforcement Learning)을 위한 데이터 레시피

요약

핵심 포인트

댓글