arXiv논문2026. 06. 24. 11:40

보증의 격차: 팩트 체크를 위한 주장 조건부 재점수화 (Claim-Conditioned Re-scoring)

요약

LLM 기반 팩트 체크 시스템에서 근거가 주장을 충분히 뒷받침하지 못하는 문제를 해결하기 위한 새로운 방법론을 제안합니다. SIFT와 WSP 기법을 통해 추출된 근거를 전체 주장 문맥과 대조하여 재점수화함으로써 판정 정확도를 높였습니다.

핵심 포인트

LLM의 팩트 체크 시 근거와 주장 간의 논리적 보증(warrant) 결여 문제 지적
주장 문맥을 유지하며 근거를 재점수화하는 SIFT 방법론 도입
인용된 보증의 함의 여부를 확인하는 자동 NLI 체크인 WSP 제안
FEVER, SciFact 등 주요 데이터셋에서 높은 정확도 및 인간 수준의 보정 성능 입증

LLM(Large Language Models)을 기반으로 구축된 팩트 체크(Fact-checking) 시스템은 표준 벤치마크에서 높은 판정 정확도를 달성하지만, 인용된 근거가 주장을 뒷받침할 권한을 부여하지 않음에도 불구하고 '지지함(Supports)' 라벨을 출력하는 경우가 빈번하게 발생합니다. 구조적 분해(Structured decomposition)는 이러한 보증(warrants)을 검사하는 자연스러운 방법이지만, 경직된 추출 프로토콜은 측면(facets)에 필요한 전체 주장 문맥(full-claim context)을 제거해 버립니다. 우리는 추출된 근거 구간(evidence spans)을 전체 주장과 대조하여 주장 조건부로 재점수화하는 SIFT와, 인용된 보증이 주장을 함의하는지 확인하는 자동 NLI(Natural Language Inference) 체크인 WSP(Warranted Supports Proportion)를 도입합니다. 우리는 4개의 오픈 소스 백본(backbones)을 사용하여 FEVER, SciFact, 5PILS, DP 데이터셋에서 평가를 진행했습니다. SIFT는 단순한 분해 방식이 최대 27.6포인트의 정확도 손실을 초래하는 셀(cells)에서 정확도를 회복하는 동시에, 직접 프롬프팅(direct prompting)보다 높은 WSP를 달성했습니다. WSP 자체는 AUC 0.92 및 정밀도(precision) 0.98에서 인간의 골드 근거(gold evidence)와 잘 보정(calibrate)됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

보증의 격차: 팩트 체크를 위한 주장 조건부 재점수화 (Claim-Conditioned Re-scoring)

요약

핵심 포인트

댓글