arXiv논문2026. 05. 11. 21:38

루브릭 기반 강화학습 (RL): 일반화 가능한 추론을 위한 구조화된 심사위원 보상

요약

본 기술 기사는 '루브릭 기반 강화학습(rubric-grounded reinforcement learning)'이라는 새로운 프레임워크를 제안합니다. 이 방법은 LLM 심사위원을 활용하여 응답을 여러 개의 가중치 부여되고 검증 가능한 기준(루브릭)으로 분해하고, 각 기준별로 점수를 매겨 부분 점수 최적화 신호를 제공하는 것이 핵심입니다. 이를 통해 정책이 단일한 전체 점수가 아닌 구조적이고 다중 기준의 보상에 따라 최적화될 수 있도록 합니다.

핵심 포인트

루브릭 기반 강화학습(Rubric-Grounded RL) 프레임워크를 공식화함.
LLM 심사위원을 사용하여 응답을 여러 개의 구조화된 기준(루브릭)으로 분해하고 점수화함.
전통적인 단일 보상 대신, 각 작업별 기준으로 평가되는 '부분 점수 최적화 신호'를 활용하여 정책을 최적화함.
이 프레임워크는 정책이 직접 관찰할 수 없는 보조적인 접지 조건(auxiliary grounding)에 의존함을 명시함.

우리는 보상을 가중치 부여되고 검증 가능한 기준들로 분해하고, LLM 심사위원을 사용하여 이를 점수화하는 것이 부분 점수 최적화 신호(partial-credit optimization signal)를 제공한다고 주장합니다. 즉, 이진 결과나 단일의 전체적인 점수가 아니라, 각 응답이 여러 작업별 기준으로 평가됩니다. 우리는 extit{루브릭 기반 강화학습 (rubric-grounded reinforcement learning, RL)}을 공식화합니다. 이는 정책(policy)이 고정된 LLM 심사위원이 생성하는 구조적이고 다중 기준의 보상에 대해 최적화되는 프레임워크이며, 이 보상은 정책이 결코 볼 수 없는 보조적인 접지 조건(auxiliary grounding)에 의존합니다. 우리는 Office of Scientific and Technical Information (OSTI)에서 파생된 루브릭을 사용하여 이 프레임워크를 구현합니다.

AI 자동 생성 콘텐츠

원문 바로가기

루브릭 기반 강화학습 (RL): 일반화 가능한 추론을 위한 구조화된 심사위원 보상

요약

핵심 포인트

댓글