arXiv논문2026. 05. 06. 12:57

단순 정답만 맞다고 좋은 것은 아니다: 실행기 기반 보상과 함께 추론 플래너 훈련

요약

본 논문은 단순히 최종 정답의 정확성만으로는 대규모 언어 모델(LLM)의 추론 과정의 품질이나 신뢰성을 충분히 반영할 수 없다는 문제를 지적하며, 이를 해결하기 위해 플래너-실행기 훈련 프레임워크인 TraceLift를 제안합니다. TraceLift는 LLM이 생성하는 추론을 소비 가능한 중간 산출물로 취급하고, 고정된 실행기를 통해 이 추론을 검증하여 '실행기 기반 보상'을 계산합니다. 이 보상은 단순히 정답 여부뿐만 아니라, 추론의 품질과 유용성을 측정하여 모델이 높은 품질의 중간 추형을 생성하도록 훈련시킵니다.

핵심 포인트

최종 답변 정확성만으로는 LLM의 추론 과정 품질 평가에 한계가 있다.
TraceLift는 플래너-실행기 구조를 사용하여 추론 과정을 소비 가능한 중간 산출물로 취급한다.
제안된 실행기 기반 보상은 Rubric 점수와 고정된 실행기의 상승률을 결합하여 추형의 품질과 유용성을 측정한다.
TRACELIFT-GROUPS 데이터셋은 높은 품질의 참조 추형과 다양한 결함 추형을 포함하여 추론 품질 학습에 활용된다.
실험 결과, 이 방법은 기존의 실행만 훈련 방식보다 더 나은 플래너-실행기 시스템 개선 효과를 보여준다.

검증 가능한 보상을 활용한 강화학습은 대형 언어 모델의 명시적 추론을 개선하는 일반적인 방법이 되었으나, 최종 답변의 정확성만으로는 해당 추론 과정이 충실하거나 신뢰할 수 있는지, 혹은 이를 소비하는 모델에 유용한지 여부를 드러내지 못합니다. 이 결과만 기반한 신호는 옳은 이유로 틀린 이유를 위해 정답인 추론을 강화하고, 단축법을 보상하여 추론의 향상을 과대평가하며, 다단계 시스템에서 결함 있는 중간 상태를 전파할 수 있습니다. 이를 위해 우리는 추론을 소비 가능한 중간 산출물로 취급하는 플래너-실행기 훈련 프레임워크인 TraceLift를 제안합니다. 플래너 훈련 기간 동안 플래너는 태그가 붙은 추론을 방출합니다. 고정된 실행기는 이 추론을 검증기 피드백용 최종 산출물로 변환하고, 실행기 기반 보상은 중간 추형을 형성합니다. 이 보상은 Rubric 기반 추론 보상 모델 (RM) 점수를 측정된 동일한 고정된 실행기의 상승률과 곱하여, 품질이 높고 유용한 추형에 대한 공로를 인정합니다. 추론 품질을 직접 학습 가능하게 하기 위해 우리는 수학 및 코드 시드 문제에서 구축된 Rubric 주석된 추론만 데이터셋인 TRACELIFT-GROUPS를 소개합니다. 각 예시는 높은 품질의 참조 추형과 해결 지원은 유지하면서 추론 품질이나 솔루션 지원을 감소시키는 로컬화된 교란이 포함된 여러 가지 가능한 결함 추형을 포함하는 동일 문제 그룹입니다. 코드 및 수학 벤치마크에 대한 광범위한 실험은 이 실행기 기반 추론 보상이 실행만 훈련보다 2 단계 플래너-실행기 시스템을 개선함을 보여주며, 이는 추론 감독이 추형이 좋은지 여부와 함께 이를 소비하는 모델에 도움이 되는지를 평가해야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

단순 정답만 맞다고 좋은 것은 아니다: 실행기 기반 보상과 함께 추론 플래너 훈련

요약

핵심 포인트

댓글