arXiv논문2026. 05. 05. 12:46

SCPRM: 지식 그래프 질문 답변을 위한 스키마 인식 누적 과정 보상 모델

요약

본 논문은 대형 언어 모델(LLM)의 복잡한 추론 과정에서 발생하는 '보상 위험 효과' 문제를 해결하기 위해 스키마 인식 누적 과정 보상 모델(SCPRM)을 제안합니다. SCPRM은 추론 접두사와 쿼리 목표 사이의 스키마 거리를 통합하여 경로 탐색에 대한 정확하고 미래 지향적인 누적 및 미래 보상을 제공합니다. 이를 몬테카를로 트리 검색(MCTS)과 결합한 SCPRM-MCTS는 의료 및 법률 분야의 지식 그래프 질문 답변(KGQA)에서 기존 방법 대비 높은 성능 향상(평균 1.18% 개선)을 보여, 위험 민감도가 높은 추론 평가에 효과적임을 입증했습니다.

핵심 포인트

SCPRM은 LLM의 과정 평가 시 발생하는 '보상 위험 효과'를 해결하는 새로운 접근 방식입니다.
제안된 SCPRM은 스키마 거리를 통합하여 현재 추론 단계와 목표 간의 관계를 고려한 누적 및 미래 보상을 제공합니다.
SCPRM을 MCTS에 결합한 SCPRM-MCTS는 지식 그래프 상의 다중 홉 추론 성능을 향상시킵니다.
실험 결과, SCPRM-MCTS는 의료/법률 KGQA에서 기존 베이스라인 대비 평균 1.18%의 Hits@k 성능 개선을 달성했습니다.

대형 언어 모델 (LLM) 은 복잡한 추론에 탁월하지만, 그 중간 단계를 평가하는 것은 여전히 어렵습니다. 과정 보상 모델 (Process Reward Model) 은 단계별 감독을 제공하지만, 잘못된 단계가 이후 올바른 단계로 상쇄되어 전체적으로 높은 보상을 부여하는 보상 위험 효과 (risk compensation effect) 를 겪는 경우가 많습니다. 이러한 문제는 특히 시작 엔티티와 종료 엔티티 사이에서 지식 그래프 (KG) 에 여러 경로가 존재할 수 있으며, 위험한 단계가 추론 경로를 무효화할 수 있는 지식 그래프 추론에서 더욱 악화됩니다. 이러한 한계는 의료 및 법률과 같은 위험 민감도 (risk-sensitive) 임무에서 문제가 됩니다.

이러한 문제를 해결하기 위해, 우리는 스키마 인식 누적 과정 보상 모델 (SCPRM: Schema-aware Cumulative Process Reward Model) 을 제안합니다. SCPRM 은 추론 접두사 (reasoning prefix) 를 조건으로 삼고, 쿼리에서 파싱된 암묵적 목표와 현재 추론 단계 사이의 스키마 거리 (schema distance) 를 통합하여 경로 탐색을 안내하는 누적 및 미래 보상을 제공합니다.

또한, 우리는 SCPRM 을 몬테카를로 트리 검색 (Monte Carlo Tree Search: MCTS) 에 통합하여 SCPRM-MCTS 로 지칭하며, 이를 통해 지식 그래프 (KG) 상의 다중 홉 추론 (multi-hop reasoning) 을 수행합니다. 의료 및 법률 KGQA 와 CWQ 에서 SCPRM-MCTS 는 강력한 베이스라인에 비해 Hits@k 성능을 평균 1.18% 개선하여, 더 정확하고 위험 민감한 추론 평가가 가능함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SCPRM: 지식 그래프 질문 답변을 위한 스키마 인식 누적 과정 보상 모델

요약

핵심 포인트

댓글