본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:34

판결에서 과정으로: 다단계 사실 검증을 위한 에이전트 기반 강화학습

요약

본 연구는 복잡한 주장의 자동 사실 검증을 위해 에이전트 기반 강화학습 프레임워크인 ProFact를 제안합니다. ProFact는 주장 분해, 증거 탐색, 답변 생성 등 다단계 워크플로우 전체를 통합적으로 최적화하는 정책을 학습합니다. 특히 과정 전반에 걸쳐 단계 수준의 보상을 제공하여 검증 성능과 효율성을 모두 향상시킵니다.

핵심 포인트

  • ProFact는 에이전트 기반 강화학습 프레임워크입니다.
  • 다단계 사실 검증 궤적을 종단 간(end-to-end)으로 최적화합니다.
  • 과정 인식 보상(process-aware rewards)을 도입하여 학습 신호를 개선했습니다.
  • 검증 성능 및 추론 효율성 측면에서 기존 기준선을 능가함을 입증했습니다.

최근 대규모 언어 모델(LLMs)과 검색 증강 추론을 결합한 접근 방식은 자동화된 사실 검증에 유망함을 보여주었습니다. 복잡한 주장을 처리하기 위해, 이러한 검증 파이프라인은 일반적으로 주장 분해, 증거 수집, 판결 예측 등 긴밀하게 연결된 모듈들을 조정하는 다단계 워크플로우를 실행합니다. 하지만 기존 방법들은 개별 단계를 고립적으로 최적화하거나 고정된 휴리스틱에 의존하여, 단계 간의 적응형 조정을 제한하고 최적이 아닌 결과를 초래할 수 있습니다. 본 연구에서는 다단계 사실 검증 궤적의 종단 간(end-to-end) 최적화를 위한 에이전트 기반 강화학습 프레임워크인 ProFact를 제안합니다. ProFact는 주장 분해, 증거 탐색, 답변 생성, 판결 예측을 조정하는 통합 정책을 학습합니다. 최종 진실성 레이블이 제공하는 희소하고 지연된 감독(supervision) 문제를 해결하기 위해, ProFact는 검증 과정 전반에 걸쳐 단계 수준의 학습 신호를 제공하는 과정 인식 보상(process-aware rewards)을 도입합니다. 경험적 평가는 ProFact가 검증 성능과 추론 효율성 모두에서 강력한 기준선(baselines)을 일관되게 능가함을 보여줍니다. 이러한 결과는 다단계 사실 검증을 위한 과정 인식 궤적 최적화의 효과를 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0