본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 12:57

단순 정답만 맞다고 좋은 것은 아니다: 실행기 기반 보상과 함께 추론 플래너 훈련

요약

본 논문은 단순히 최종 정답의 정확성만으로는 대규모 언어 모델(LLM)의 추론 과정의 품질이나 신뢰성을 충분히 반영할 수 없다는 문제를 지적하며, 이를 해결하기 위해 플래너-실행기 훈련 프레임워크인 TraceLift를 제안합니다. TraceLift는 LLM이 생성하는 추론을 소비 가능한 중간 산출물로 취급하고, 고정된 실행기를 통해 이 추론을 검증하여 '실행기 기반 보상'을 계산합니다. 이 보상은 단순히 정답 여부뿐만 아니라, 추론의 품질과 유용성을 측정하여 모델이 높은 품질의 중간 추형을 생성하도록 훈련시킵니다.

핵심 포인트

  • 최종 답변 정확성만으로는 LLM의 추론 과정 품질 평가에 한계가 있다.
  • TraceLift는 플래너-실행기 구조를 사용하여 추론 과정을 소비 가능한 중간 산출물로 취급한다.
  • 제안된 실행기 기반 보상은 Rubric 점수와 고정된 실행기의 상승률을 결합하여 추형의 품질과 유용성을 측정한다.
  • TRACELIFT-GROUPS 데이터셋은 높은 품질의 참조 추형과 다양한 결함 추형을 포함하여 추론 품질 학습에 활용된다.
  • 실험 결과, 이 방법은 기존의 실행만 훈련 방식보다 더 나은 플래너-실행기 시스템 개선 효과를 보여준다.

검증 가능한 보상을 활용한 강화학습은 대형 언어 모델의 명시적 추론을 개선하는 일반적인 방법이 되었으나, 최종 답변의 정확성만으로는 해당 추론 과정이 충실하거나 신뢰할 수 있는지, 혹은 이를 소비하는 모델에 유용한지 여부를 드러내지 못합니다. 이 결과만 기반한 신호는 옳은 이유로 틀린 이유를 위해 정답인 추론을 강화하고, 단축법을 보상하여 추론의 향상을 과대평가하며, 다단계 시스템에서 결함 있는 중간 상태를 전파할 수 있습니다. 이를 위해 우리는 추론을 소비 가능한 중간 산출물로 취급하는 플래너-실행기 훈련 프레임워크인 TraceLift를 제안합니다. 플래너 훈련 기간 동안 플래너는 태그가 붙은 추론을 방출합니다. 고정된 실행기는 이 추론을 검증기 피드백용 최종 산출물로 변환하고, 실행기 기반 보상은 중간 추형을 형성합니다. 이 보상은 Rubric 기반 추론 보상 모델 (RM) 점수를 측정된 동일한 고정된 실행기의 상승률과 곱하여, 품질이 높고 유용한 추형에 대한 공로를 인정합니다. 추론 품질을 직접 학습 가능하게 하기 위해 우리는 수학 및 코드 시드 문제에서 구축된 Rubric 주석된 추론만 데이터셋인 TRACELIFT-GROUPS를 소개합니다. 각 예시는 높은 품질의 참조 추형과 해결 지원은 유지하면서 추론 품질이나 솔루션 지원을 감소시키는 로컬화된 교란이 포함된 여러 가지 가능한 결함 추형을 포함하는 동일 문제 그룹입니다. 코드 및 수학 벤치마크에 대한 광범위한 실험은 이 실행기 기반 추론 보상이 실행만 훈련보다 2 단계 플래너-실행기 시스템을 개선함을 보여주며, 이는 추론 감독이 추형이 좋은지 여부와 함께 이를 소비하는 모델에 도움이 되는지를 평가해야 함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0