arXiv논문2026. 05. 13. 11:04

RubricEM: 검증 가능한 보상을 넘어선 루브릭 기반 정책 분해를 활용한 Meta-RL

요약

본 연구는 깊이 있는 연구 에이전트(deep research agents)를 훈련시키는 새로운 강화학습 프레임워크인 RubricEM을 제안합니다. 기존의 검증 가능한 보상 방식으로는 복잡한 계획, 검색, 증거 평가 과정을 거치는 에이전트의 행동 경로와 경험 재사용에 한계가 있었습니다. RubricEM은 루브릭(rubric)을 단순한 최종 평가 도구가 아닌, 정책 실행, 심사 피드백, 그리고 에이전트 메모리를 구조화하는 공유 인터페이스로 활용하여 단계별 정책 분해를 가능하게 합니다.

핵심 포인트

깊이 있는 연구 에이전트는 계획, 검색, 증거 평가 등 복잡한 과정을 거치므로 기존의 검증 가능한 보상 방식으로는 훈련에 한계가 있다.
RubricEM은 루브릭을 최종 답변 평가를 넘어 정책 실행 및 메모리 구조화의 공유 인터페이스로 활용한다.
제안된 프레임워크는 단계별 정책 분해(stagewise policy decomposition)를 통해 에이전트의 복잡한 행동 경로와 경험을 체계적으로 학습하고 재사용할 수 있게 한다.

깊이 있는 연구 에이전트(deep research agents), 즉 계획하고, 검색하며, 증거를 평가하고, 장문의 보고서를 종합하는 시스템을 훈련시키는 것은 강화학습 (reinforcement learning)을 검증 가능한 보상(verifiable rewards)의 영역을 넘어 확장시킵니다. 이들의 출력물은 정답(ground-truth answers)이 부족하고, 그 이동 경로는 많은 도구 증강 결정(tool-augmented decisions)으로 구성되며, 표준적인 사후 훈련(post-training) 방식으로는 과거의 시도들을 재사용 가능한 경험으로 전환하는 메커니즘을 거의 제공하지 못합니다. 본 연구에서는 루브릭이 단순히 최종 답변 평가자로서 기능할 것이 아니라, 정책 실행(policy execution), 심사 피드백(judge feedback), 그리고 에이전트 메모리(agent memory)를 구조화하는 공유 인터페이스 역할을 해야 한다고 주장합니다. 이러한 관점에 기반하여, 우리는 단계별 정책 분해(stagewise policy decomposition)를 결합한 루브릭 기반 강화학습 프레임워크인 RubricEM을 소개합니다.

최종 성능을 넘어, 우리는 RubricEM의 핵심 요소들을 이해하기 위해 철저한 분석을 수행합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RubricEM: 검증 가능한 보상을 넘어선 루브릭 기반 정책 분해를 활용한 Meta-RL

요약

핵심 포인트

댓글