arXiv논문2026. 06. 10. 10:34

훈련 중 제로 분산 쿼리 재활용을 통한 에이전트 검색용 효과적인 강화학습 (Reinforcement Learning)

요약

LLM 검색 에이전트 훈련 시 GRPO 알고리즘에서 발생하는 제로 분산(zero-variance) 문제를 해결하기 위한 쿼리 재활용 기술을 제안합니다. 제로 분산 그룹을 폐기하는 대신 가변 풀에 저장하여 재샘플링함으로써 훈련 효율을 극대화합니다. 이를 통해 1.7B 모델로 7B 모델 수준의 멀티홉 QA 성능을 달성했습니다.

핵심 포인트

GRPO 훈련 중 발생하는 제로 분산 쿼리의 낭비 문제 해결
쿼리 재활용(Query Recycling)을 통한 훈련 분포의 공진화 유도
1.7B 모델로 최대 7B 모델 규모의 성능 구현
재활용된 쿼리가 유효 배치의 약 75%를 공급함

결과 기반 보상 (outcome-only rewards) 환경에서 LLM 검색 에이전트 (LLM search agents)를 훈련할 때 GRPO 스타일의 알고리즘을 사용하는 것이 표준 전략이 되었습니다. 이러한 알고리즘에서 쿼리는 롤아웃 그룹 (rollout group) 내에 성공과 실패가 섞여 있을 때만 파라미터 업데이트에 기여합니다. 모두 정답인 경우 (너무 쉬운 경우)와 모두 오답인 경우 (너무 어려운 경우)의 그룹은 분산이 0 (zero-variance)이며 롤아웃 비용을 낭비하게 됩니다. 기존 방식들은 제로 분산을 정적인 속성으로 취급하여 이러한 그룹을 폐기하거나 사전에 필터링합니다. 우리는 정책 (policy)이 훈련 과정에서 진화함에 따라 쿼리가 제로 분산 상태와 신호 전달 상태 (signal-bearing states) 사이를 전환한다는 가설을 세우고 이를 경험적으로 검증했습니다. 이러한 직관을 바탕으로, 우리는 쿼리 재활용 (query recycling)을 제안합니다. 이는 제로 분산 그룹을 향후 재샘플링을 위해 가변 풀 (mutable pool)로 반환함으로써, 효과적인 훈련 분포 (training distribution)가 정책과 함께 공진화하도록 합니다. 제안된 기술을 사용하면, 합성 데이터 (synthetic data)로 훈련된 1.7B 파라미터 모델이 7개의 멀티홉 QA (multi-hop QA) 벤치마크에서 평균 66.0의 Pass@1 정확도를 달성할 수 있으며, 이는 벤치마크 유도 감독 (benchmark-derived supervision)으로 훈련된 최대 7B 파라미터 규모의 시스템과 대등하거나 이를 능가하는 수준입니다. 재활용 패턴을 분석한 결과, 재활용된 쿼리는 훈련 종료 시점에 유효 배치 (effective batch)의 약 4분의 3을 공급하며, 그 기여도는 정책 개선에 따른 회복 (recovery from policy improvement)과 정책 드리프트 (policy drift) 사이에서 나누어 나타납니다.

AI 자동 생성 콘텐츠

원문 바로가기

훈련 중 제로 분산 쿼리 재활용을 통한 에이전트 검색용 효과적인 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글