arXiv논문2026. 06. 09. 10:44

CATPO: 비평 증강 트리 정책 최적화 (Critique-Augmented Tree Policy Optimization)

요약

CATPO는 트리 기반 강화학습에서 유익하지 않은 트리를 식별하고 해결하는 새로운 최적화 방법론입니다. 비평 가이드 치유와 유익성 가중 손실을 통해 학습 효율을 높여 수학적 추론 성능을 크게 향상시켰습니다.

핵심 포인트

트리 유익성 점수 $F(T)$를 통한 비효율적 트리 진단
실패 지점에 자연어 비평을 적용하는 비평 가이드 치유 기술
유익성 가중 손실을 통한 그래디언트 업데이트 최적화
MATH 벤치마크에서 TreeRPO 및 GRPO 대비 성능 우위 입증

검증 가능한 보상을 활용한 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 대규모 언어 모델 (LLMs, Large Language Models)의 추론 능력을 향상시키기 위한 지배적인 패러다임이 되었습니다. TreeRPO와 같은 최근의 트리 기반 방법론들은 별도의 프로세스 보상 모델 (Process Reward Model) 없이도 조밀한 단계별 보상 신호를 얻기 위해, 평면적인 궤적 샘플링 (Flat Trajectory Sampling)을 트리 구조의 롤아웃 (Tree-structured Rollouts)으로 확장합니다. 그러나 모든 트리가 동일하게 유익한 것은 아닙니다. 모든 리프 노드 (Leaf)가 성공하거나 모두 실패하는 트리, 또는 정책 (Policy)이 이미 보상 분포를 예측하고 있는 트리는 그래디언트 업데이트 (Gradient Updates)에 거의 기여하지 못하며 연산 자원을 낭비합니다. 본 논문에서는 이러한 낭비를 트리 수준에서 진단하고 해결하는 CATPO (Critique-Augmented Tree Policy Optimization)를 소개합니다. CATPO는 먼저 추가적인 연산 비용 없이 리프 결과의 다양성 (Leaf-outcome Diversity)과 정책-보상 비상관성 (Policy-reward Decorrelation)을 결합한 트리 유익성 점수 $F(T)$를 통해 각 트리의 점수를 매깁니다. 모든 분기가 실패하는 '완전 오답' 트리(Dead-wrong trees)의 경우, CATPO는 비평 가이드 치유 (Critique-guided Healing)를 적용합니다. 즉, 가장 얕은 실패 지점을 찾아 자연어 비평 (Natural-language Critique)을 생성하고, 정제된 연속 동작을 접목(Graft)하여 학습 신호를 회복합니다. 마지막으로, 유익성 가중 손실 (Informativeness-weighted Loss)은 각 트리의 그래디언트 기여도를 정규화된 점수에 따라 스케일링하여, 전체적인 그래디언트 크기를 유지하면서도 가장 유익한 트리에 파라미터 업데이트를 집중시킵니다. MATH 데이터셋으로 학습된 Qwen2.5-Math-1.5B를 이용한 실험 결과, CATPO는 4개의 벤치마크 (AIME24, MATH-500, OlympiadBench, MinervaMath)에서 37.5%의 매크로 정확도 (Macro Accuracy)를 달성하였으며, 이는 TreeRPO보다 1.9%, GRPO보다 4.8% 향상된 수치입니다.

AI 자동 생성 콘텐츠

원문 바로가기

CATPO: 비평 증강 트리 정책 최적화 (Critique-Augmented Tree Policy Optimization)

요약

핵심 포인트

댓글