arXiv논문2026. 06. 23. 11:05

ARCO: 다단계 LLM 기반 에이전트를 위한 공진화 적응형 루브릭 (Adaptive Rubric with Co-Evolution)

요약

ARCO는 다단계 LLM 에이전트의 강화학습을 위해 루브릭과 보상 함수가 함께 진화하는 공진화 적응형 루브릭 프레임워크를 제안합니다. 단계별 신용 할당 문제를 해결하여 기존 방식보다 높은 성능과 해석 가능성을 제공합니다.

핵심 포인트

생성 헤드와 점수 헤드를 공유하여 루브릭과 보상을 공진화함
궤적 분해 제약 조건을 통해 단계별 신용 할당 문제 해결
HotpotQA 등 벤치마크에서 기존 베이스라인 대비 우수한 성능 입증
에이전트의 행동을 진단하고 단계별 특화된 루브릭 제공

다단계 LLM (Large Language Model) 에이전트를 위한 강화학습 (Reinforcement Learning)은 종종 성공 여부만을 나타내는 스칼라 보상 (scalar rewards)에 의존하지만, 이는 왜 특정 궤적 (trajectory)이 좋은지 또는 나쁜지에 대해 설명할 수 없습니다. 루브릭 (Rubric) 기반 보상은 자연어 기준을 통해 해석 가능성을 향상시키지만, 기존 방법들은 궤적 수준에서 점수를 매기고 폐쇄형 소스 판사 (closed-source judge) 뒤에 채점자를 고정시켜 버림으로써, 단계별 신용 할당 (step-level credit assignment) 문제를 해결하지 못하고 판사 자체도 정적인 상태로 남겨둡니다. 우리는 ARCO (Adaptive Rubric CO-evolution)를 제안합니다. 이는 동일한 규모의 모델 $μ$가 두 개의 헤드(head)를 공유하는 루브릭 프레임워크입니다: 단계별 기준을 생성하는 생성 헤드 (generation head)와 루브릭 조건부 단계별 보상을 예측하는 점수 헤드 (score head)입니다. 궤적 분해 제약 조건 (trajectory decomposition constraint)은 단계별 보상의 합을 최종 결과와 연결하여, 단계별 라벨 없이도 신용 할당을 가능하게 하며, $μ$와 정책 (policy) $π$는 온-정책 (on-policy) 데이터에서 공동으로 업데이트되어 루브릭 내용과 채점 함수가 파라미터 수준에서 공진화 (co-evolve)하도록 합니다. 두 개의 오픈 소스 백본 (backbone)을 사용하여 HotpotQA, 2WikiMultiHopQA, MuSiQue에서 테스트한 결과, ARCO는 강력한 결과 기반 (outcome-based), 루브릭 기반 (rubric-based), 프로세스 기반 (process-based) 보상 베이스라인들에 비해 모든 설정에서 최고의 EM (Exact Match) 성능을 향상시켰습니다. 또한 분석을 통해 ARCO의 루브릭이 단계별로 특화되어 있고, 설계 선택에 견고하며, 에이전트 행동을 진단하는 데 유용함을 보여줍니다. 코드와 데이터는 https://github.com/zihangtian/ARCO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARCO: 다단계 LLM 기반 에이전트를 위한 공진화 적응형 루브릭 (Adaptive Rubric with Co-Evolution)

요약

핵심 포인트

댓글