PathRouter: 에이전트 기반 그래프 검색 증강 생성(GraphRAG)에서 보상과 검색 품질의 정렬
요약
에이전트 기반 GraphRAG에서 발생하는 정답-경로 보상 혼동과 검색-업데이트 모호성 문제를 해결하기 위한 PathRouter 프레임워크를 제안합니다. 이 방식은 정답 정확도와 증거 경로 중첩도를 함께 평가하여 지름길 학습을 억제하고 검색 품질을 높입니다.
핵심 포인트
- 정답-경로 보상 혼동(answer-path reward aliasing) 문제 해결
- 증거 경로 중첩도를 활용한 경로 인식 학습 프레임워크 제안
- GRPO 이점 스케일링을 통한 지름길 강화 억제
- KL 가이던스를 활용한 증거 탐색 동작 최적화
- 벤치마크 실험을 통해 정답 F1 점수 및 증거 경로 품질 향상 입증
에이전트 기반 GraphRAG (Agentic GraphRAG)는 언어 모델 에이전트가 그래프 구조의 증거를 반복적으로 검색하고 그에 대해 추론하도록 학습시켜, 복잡한 정보 네트워크를 효율적으로 탐색함으로써 더욱 정확하고 문맥을 인식하는 의사결정을 가능하게 합니다. 그러나 결과 중심의 강화학습 (outcome-only reinforcement learning)은 정답이 유용한 증거 경로가 아닌 지름길(shortcuts)을 통해 도출될 수 있는 \textit{\textbf{정답-경로 보상 혼동 (answer-path reward aliasing)}} 문제를 겪습니다. 또한, 스칼라 형태의 궤적 수준 피드백이 어떤 검색 동작을 조정해야 하는지 나타내지 못하는 \textit{\textbf{검색-업데이트 모호성 (search-update ambiguity)}} 문제도 나타납니다. 이러한 단점들을 완화하기 위해, 우리는 에이전트 기반 GraphRAG를 위한 경로 인식 학습 프레임워크인 PathRouter를 제안합니다. PathRouter는 각 궤적을 정답 정확도와 증거 경로 중첩도(evidence-path overlap)를 따라 공동으로 평가하며, 지름길 강화를 억제하면서 증거 탐색 동작을 보존하는 차별화된 GRPO 이점 스케일링 (advantage scaling)을 가진 네 가지 궤적 범주를 생성합니다. 증거가 부족한 궤적의 경우, 동결된 골드 증거 교사 (frozen gold-evidence teacher)가 추론 및 검색 쿼리 토큰에 대해 토큰 수준의 KL 가이던스 (KL guidance)를 제공하며, 직접적인 응답 모방을 피하기 위해 정답 토큰은 제외합니다. 세 가지 모델 크기에 걸친 6개의 QA 벤치마크 실험 결과, PathRouter는 정답 F1 점수와 증거 경로 중첩도를 일관되게 향상시켰으며, 강력한 베이스라인과 비교했을 때 3B 모델에서는 평균 3.1, 7B 모델에서는 4.9의 F1 이득을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기