arXiv논문2026. 05. 25. 16:47

ARES: 확장 가능한 LLM 강화학습을 위한 자동 루브릭 합성

요약

ARES는 대규모 언어 모델(LLM)의 강화학습을 위해 루브릭을 자동으로 합성하는 프레임워크입니다. 사전 학습 문서에서 질문-답변 쌍과 질문별 맞춤형 루브릭을 생성하여 개방형 응답에 대한 정밀한 보상 감독을 가능하게 합니다.

핵심 포인트

ARES 프레임워크를 통한 루브릭 기반 RL 데이터 자동 구축
질문별 가중치가 부여된 인스턴스 수준의 보상 감독 제공
도메인 및 페르소나 기반의 생성 조건화로 품질 향상
기존 SFT 및 이진 보상 RL 대비 우수한 성능 입증

루브릭 (Rubric) 기반 보상은 자동으로 검증 가능한 정답이 있는 태스크를 넘어, 대규모 언어 모델 (LLM)의 강화학습 (RL)을 확장할 수 있는 유망한 방법을 제공합니다. 그러나 루브릭 기반의 RL을 확장하는 것은 여전히 도전적인 과제입니다. 기존 방식들은 종종 전문가가 작성한 루브릭과 수동으로 구축된 질문 세트에 의존하며, 고정된 태스크 수준의 루브릭은 개별 질문의 평가 요구사항을 제대로 포착하지 못할 수 있습니다. 우리는 대규모로 루브릭 기반 RL 데이터를 자동 구축하기 위한 프레임워크인 ARES (Automated Rubric synthEsis for Scalable RL)를 제안합니다. ARES는 가공되지 않은 사전 학습 (Pretraining) 문서로부터 시작하여, 소스 지식을 독립적인 질문-답변 쌍으로 변환하고 질문별 가중치가 부여된 루브릭을 공동 생성함으로써, 개방형 응답에 대한 인스턴스 수준의 보상 감독 (Reward supervision)을 가능하게 합니다. 다양성과 품질을 향상시키기 위해, ARES는 도메인 레이블과 페르소나 (Persona) 정보에 따라 생성을 조건화하며, 질문의 자기 완결성 (Self-containment), 답변의 충실도 (Faithfulness), 그리고 루브릭의 유효성을 검증하기 위한 검증 필터를 적용합니다. ARES를 사용하여 우리는 10개 도메인에 걸쳐 10만 개의 루브릭 주석이 달린 인스턴스를 구축했습니다. 7개의 벤치마크에 대한 실험 결과, ARES로 학습된 루브릭 기반 RL은 지속적 사전 학습 (Continual pretraining), 지도 미세 조정 (Supervised fine-tuning, SFT), 그리고 이진 보상 (Binary-reward) RL보다 뛰어난 성능을 보였으며, 의료 및 지시 이행 (Instruction following)과 같은 다차원적 개방형 태스크에서 가장 큰 성능 향상을 나타냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARES: 확장 가능한 LLM 강화학습을 위한 자동 루브릭 합성

요약

핵심 포인트

댓글