arXiv논문2026. 06. 03. 11:32

RLVR에서 인간의 큐레이션 대신 합성 데이터 증강 활용하기

요약

RLVR(검증 가능한 보상 기반 강화학습) 과정에서 발생하는 고품질 태스크 공급 병목 현상을 해결하기 위해 합성 데이터 증강 방안을 제안합니다. 소수의 수작업 태스크를 게이트 필터링된 증강 데이터로 대체하여 경제성을 높이면서도 모델의 일반화 성능을 유지할 수 있음을 입증했습니다.

핵심 포인트

RLVR 훈련을 위한 고품질 태스크의 수작업 큐레이션 비용 문제 해결
게이트 필터링된 합성 데이터 증강을 통한 태스크 공급 자동화
코드, 추론, 에이전트 호출 등 10개 벤치마크에서 성능 유지 확인
인간 작성 태스크 대비 1.4배에서 11.6배의 비용 효율적 교환율 달성

고품질 훈련 태스크(task)의 공급은 에이전트형 언어 모델(agentic language models)을 위한 검증 가능한 보상 기반 강화학습(RLVR, Reinforcement Learning from Verifiable Rewards)의 핵심적인 병목 현상입니다. 각 태스크는 샌드박스 환경(sandboxed setup), 프롬프트(prompt), 그리고 수작업으로 작성된 보상 함수(reward function)를 필요로 하며, 품질 기준을 통과하는 태스크만이 유용한 훈련 신호(training signal)를 생성합니다. 이러한 품질 기준에 맞춘 수작업 큐레이션(Hand-curation)은 효과적인 RL 훈련에 필요한 태스크 수만큼 경제적으로 확장될 수 없으며, 자동 생성된 태스크 변형(task variants)과 인간이 작성한 태스크 간의 대체율(substitution rate) 또한 아직 확립되지 않았습니다. 본 연구에서는 RLVR 과정 중 추가적인 인간 큐레이션을 대신하기 위해, 소수의 수작업 기반 태스크를 미리 지정된 게이트 필터링(gate-filtered)된 증강(augmentations)으로 사용하는 방안을 조사합니다. 우리는 증강된 태스크와 인간이 작성한 태스크 사이의 비용 조정 교환율(cost-adjusted trade rate) $ρ_{\text{cost}}$를 공식화하고, 증강 비율이 다양한 훈련 코퍼스(training corpora)에 대한 통제된 절제 연구(ablation)를 통해 이를 측정하며, 증강 파이프라인의 엔드 투 엔드(end-to-end) 경제성을 규명합니다. 추가적인 인간 작성 태스크를 증강된 콘텐츠로 대체하더라도 코드, 지시 이행(instruction following), 추론(reasoning), 다회차 에이전트 함수 호출(multi-turn agentic function-calling)을 아우르는 10개의 벤치마크 세트에서 전체적인 홀드아웃 일반화(held-out generalization) 성능을 유지합니다. 게이트 필터링된 합성 RLVR 태스크와 인간 작성 RLVR 태스크 사이의 비용 조정 교환율 $ρ_{\text{cost}}$는 가능한 $c_{\text{human}}/c_{\text{aug}}$ 범위 내에서 $[1.4\times, 11.6\times]$를 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RLVR에서 인간의 큐레이션 대신 합성 데이터 증강 활용하기

요약

핵심 포인트

댓글