arXiv논문2026. 05. 25. 16:47

Co-ReAct: ReAct 에이전트를 위한 단계별 협업 도구로서의 루브릭 (Rubrics)

요약

Co-ReAct는 ReAct 에이전트의 추론 과정에서 루브릭을 단계별 가이드로 활용하는 새로운 프레임워크를 제안합니다. GRPO를 통해 변별력 있는 루브릭 생성기를 훈련하며, 기존 모델의 결정 메커니즘을 유지하면서도 검색 및 추론 성능을 크게 향상시킵니다.

핵심 포인트

루브릭을 사후 평가가 아닌 단계별 행동 가이드로 활용
GRPO를 사용하여 변별력 있는 루브릭 생성기 훈련
Spearman 순위 상관관계를 활용한 목적 함수 최적화
기존 모델에 즉시 적용 가능한 drop-in 구성 요소 제공
DeepResearchBench 등에서 기존 베이스라인 대비 성능 향상

검색 집약적이고 다단계 추론 (multi-step reasoning) 작업이 필요한 ReAct 방식의 에이전트들은 어떤 증거를 찾을지, 다음으로 어떤 추론 또는 행동 단계를 취할지, 그리고 언제 멈출지를 결정할 때 주로 자체적인 내부 판단에 의존하며, 이로 인해 종종 피상적이고 중복되거나 목표가 불분명한 궤적 (trajectories)을 생성합니다. 이전 연구들은 외부 품질 신호로서 루브릭 (rubrics)을 탐구해 왔으나, 기존의 사용 방식은 행동을 유도하기보다는 주로 평가적인 성격이 강했습니다. 즉, 루브릭은 일반적으로 훈련 단계의 보상 (rewards)이나 완료된 출력에 대한 사후 평가자 (post-hoc evaluators) 역할을 수행하며, 심층 연구 (deep-research) 환경에서는 단계별 (step-level)이라기보다 거칠고 보고서 수준 (report-level)인 경우가 많습니다.

우리는 추론 (inference) 과정 중에 루브릭을 단계별 가이드로 사용하는 루브릭 기반 행동 선택 프레임워크인 Co-ReAct를 소개합니다. 각 결정 단계에서 Co-ReAct는 에이전트의 컨텍스트 (context)에 루브릭을 주입하여 다음의 '추론 또는 행동 (Reason-or-Act)' 결정을 안내하며, 에이전트가 증거 탐색, 검색, 추론 또는 자기 평가 (self-evaluation) 시 무엇을 목표로 해야 하는지 명시합니다. 이러한 가이드의 신뢰성을 확보하기 위해, 우리는 GRPO를 사용하여 전용 루브릭 생성기 (rubric generator)를 훈련합니다. 기존의 쌍체 (pairwise) 또는 이진 (binary) 선호도 공식화와 달리, 우리의 목적 함수는 다수 전문가 합의 순위 (multi-judge expert consensus rankings)에 대해 리스트 단위의 Spearman 순위 상관관계 (Spearman rank-correlation) 보상을 최적화하며, 이를 통해 단순히 그럴듯한 것이 아니라 변별력 있는 루브릭을 생성하도록 유도합니다.

DeepResearchBench와 SQA-CS-V2에서 Co-ReAct는 8B/14B 오픈 소스 모델과 최첨단 폐쇄형 (closed-source) 베이스 모델 모두를 기반으로 구축된 검색 에이전트 전반에 걸쳐 ReAct 및 대표적인 테스트 시간 연산 (test-time compute) 베이스라인보다 일관되게 향상된 성능을 보여주었습니다. 훈련된 루브릭 생성기는 기본 결정 메커니즘을 변경하지 않고도 이러한 베이스라인들을 개선할 수 있는 즉시 사용 가능한 (drop-in) 구성 요소로도 활용될 수 있습니다. 우리의 코드는 https://github.com/ZBWpro/Co-ReAct 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Co-ReAct: ReAct 에이전트를 위한 단계별 협업 도구로서의 루브릭 (Rubrics)

요약

핵심 포인트

댓글