arXiv논문2026. 06. 03. 11:05

ARBOR: 검색 에이전트를 위한 재사용 가능한 루브릭 버퍼 기반의 온라인 프로세스 보상 (Online Process Rewards)

요약

ARBOR은 검색 에이전트의 학습 효율을 높이기 위해 재사용 가능한 루브릭 버퍼를 활용하는 온라인 프로세스 보상 프레임워크입니다. 기존의 결과 중심 보상 방식이 가진 그래디언트 소실 문제를 해결하며, 쿼리 간 공통 루브릭을 통해 프로세스 수준의 정교한 보상을 제공합니다.

핵심 포인트

결과 중심 보상의 그래디언트 소실 문제 해결
재사용 가능한 루브릭 메모리 기반의 프로세스 감독
멀티홉 QA 벤치마크에서 기존 베이스라인 능가
LLM 판정 정확도 및 학습 유효 그룹 비율 대폭 향상

LLM 기반 검색 에이전트(search agents)는 주로 결과 전용 보상(outcome-only reward)으로 학습되며, 이로 인해 검색 프로세스 자체는 감독되지 않은 상태로 남게 됩니다. 이러한 신호는 샘플링된 모든 궤적(trajectories)이 동일한 정답 여부를 공유하는 결과 동질적 그룹(outcome-homogeneous groups)에서 퇴화하며, 그룹 내 이점(within-group advantage)이 0이 되어 그래디언트(gradient)가 발생하지 않는 문제를 야기합니다. 기존의 프로세스 감독(process supervision) 방식은 비용이 많이 드는 검증기(verifier)를 학습시키거나, 쿼리마다 일관성이 없고 한 번 사용 후 폐기되는 쿼리별 루브릭(rubrics)을 생성합니다. 우리는 쿼리 간에 공유되는 루브릭 메모리를 유지하는 재사용 가능한 프로세스 보상 프레임워크인 ARBOR (Adaptive Rubric Buffer for Online Reward)를 제안합니다. 대조적 궤적(contrastive trajectories)으로부터 유도된 쿼리 로컬 초안(Query-local drafts)이 수용되고, 이를 쿼리 간 공통 루브릭으로 통합하며, 정책(policy)이 진화함에 따라 폐기합니다. 공통 루브릭의 작은 활성 서브셋(active subset)은 희소 쌍별 판정(sparse pairwise judging)을 통해 궤적의 점수를 매기며, 결과로 나온 점수는 기본 보상(base reward)에 추가되어 결과 보상이 균일한 상황에서도 프로세스 수준의 그래디언트를 제공합니다. ARBOR는 4개의 멀티홉 QA(multi-hop QA) 벤치마크에서 GRPO 및 DAPO 베이스라인을 지속적으로 능가하며, LLM 판정(LLM-judge) 정확도를 최대 4.2포인트 향상시키고, 그래디언트가 0이었던 학습 그룹의 최대 42%를 유익한 그룹으로 전환합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARBOR: 검색 에이전트를 위한 재사용 가능한 루브릭 버퍼 기반의 온라인 프로세스 보상 (Online Process Rewards)

요약

핵심 포인트

댓글