DEEPRUBRIC: 효율적인 심층 연구 에이전트 (Deep Research Agents)의 강화학습 (RL)을 위한 증거 트리 루브릭 감독
요약
DeepRubric은 심층 연구 에이전트의 강화학습 효율을 높이기 위해 증거 트리(evidence tree)를 기반으로 쿼리와 루브릭을 합성하는 프레임워크입니다. 이를 통해 기존 방식보다 훨씬 적은 GPU 자원으로도 최첨단 연구 모델과 대등한 성능을 구현했습니다.
핵심 포인트
- 증거 트리를 활용한 역방향 데이터 구축 프레임워크 DeepRubric 제안
- 재귀적 하위 질문 확장을 통해 검증 가능한 평가 기준 확보
- 기존 방식 대비 약 13배 적은 RL GPU 시간으로 고성능 달성
- 루브릭 기반 GRPO를 통한 DeepRubric-8B 모델 학습 성공
심층 연구 에이전트 (Deep research agents)는 검색된 증거를 탐색하고 추론함으로써 긴 형식의 보고서를 합성합니다. 루브릭 (Rubric) 기반 보상을 활용한 강화학습 (Reinforcement learning)은 보고서 품질을 보상 신호로 변환하는 검증 가능한 기준에 맞춰 에이전트를 최적화함으로써 성능을 향상시키지만, 그 효율성은 해당 기준이 작업 범위와 증거 요구 사항을 얼마나 신뢰성 있게 포착하느냐에 달려 있습니다. 대부분의 기존 연구는 LLM에게 주어진 쿼리에 대한 루브릭을 생성하도록 요청하지만, 모델이 기저에 깔린 정보 요구 사항을 추론하는 데 실패할 경우 생성된 루브릭이 불완전해져 RL 효율성을 저하시킬 수 있습니다. 더 신뢰할 수 있는 쿼리-루브릭 감독 (query--rubric supervision)을 얻기 위해, 우리는 이 과정을 역전시킨 데이터 구축 프레임워크인 DeepRubric을 소개합니다. 즉, 주어진 쿼리에 대한 평가 기준을 추론하는 대신, 먼저 증거에 기반한 보고서가 무엇을 바탕으로 평가되어야 하는지를 결정한 다음, 해당 평가 대상으로부터 정렬된 쿼리-루브릭 쌍을 합성합니다. 샘플링된 시드 주제(seed topic)에서 시작하여, DeepRubric은 증거에 기반한 하위 질문들을 재귀적으로 확장함으로써 증거 트리 (evidence tree)를 구축하며, 이 트리의 리프(leaf) 노드들은 원자적이고 검증 가능한 평가 대상 역할을 합니다. 그런 다음 이 증거 트리를 사용하여 훈련용 쿼리와 루브릭을 합성함으로써, 보상이 쿼리에서 요청한 정보를 정확하게 평가하도록 보장합니다. DeepRubric을 사용하여 우리는 9,000개의 쿼리-루브릭 감독 사례를 구축하고 루브릭 기반 GRPO를 통해 DeepRubric-8B를 학습시켰으며, 그 결과 약 13배 적은 RL GPU 시간으로 세 가지 벤치마크에서 기존의 최첨단 (state-of-the-art) 심층 연구 모델들과 대등한 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기