arXiv논문2026. 05. 27. 11:33

증거의 부재는 증거의 불충분함이 아니다: 사실 검증(Fact Verification)에서의 NEI 구축 아티팩트 진단

요약

사실 검증(Fact Verification) 벤치마크에서 '증거의 부재'와 '증거의 불충분함'을 구분하기 위한 NEI-CAP 진단 프로토콜을 제안합니다. 연구 결과, NEI 레이블 구축 방식에 따라 모델의 성능과 학습 양상이 크게 달라짐을 확인했습니다.

핵심 포인트

증거 부재와 불충분함의 개념적 차이 규명
NEI 구축 인지 진단 프로토콜(NEI-CAP) 소개
지름길 단서(Shortcut cues)에 의한 모델 취약성 경고
NEI 역량의 구축 간 전이 불가능성 입증

증거의 부재(Evidence absence)는 증거의 불충분함(Evidence insufficiency)이 아니지만, 사실 검증 (Fact verification) 벤치마크는 이 둘을 관찰상 유사하게 만들 수 있습니다. 정보 부족 (NEI, Not Enough Information) 레이블은 종종 서로 다른 증거 조건들을 통해 실행되며, 이러한 선택은 검증기 (Verifier)가 무엇을 학습하는지, 그리고 그 점수가 무엇을 숨길 수 있는지를 암묵적으로 결정합니다. 우리는 불충분한 증거 평가를 위한 구축 인지 진단 프로토콜인 NEI-CAP를 소개합니다. 각 NEI 예시는 그것을 생성한 구축 계열 (Construction family) 정보를 포함합니다. NEI-CAP는 지름길 단서 (Shortcut cues)를 감사하고, 인간의 판결 (Human adjudication)을 통해 어려운 사례들을 검증하며, 역량이 구축 간에 전이되는지 테스트합니다. 우리는 FEVER 및 HoVer를 제한된 외부 대조군으로 사용하여 SciFact 스타일의 과학적 검증 환경에서 이 프로토콜을 구현합니다. 이러한 설정 전반에 걸쳐, NEI 역량은 안정적으로 전이되지 않습니다. 지름길에 취약한 구축 방식으로 학습된 모델은 의미론적으로 연관된 불충분한 증거를 인식하는 데 실패하며, 혼합 구축 (Mixed-construction) 학습은 격차를 좁히기는 하지만 완전히 해소하지는 못합니다. 고정된 주장 (Fixed-claim) 진단은 증거 조건이 NEI 재현율 (Recall)뿐만 아니라 참조되는 지지/반박 (Support/Refute) 레이블에 대한 신뢰도까지 변화시킨다는 것을 추가로 보여줍니다. 따라서 집계된 NEI 점수는 모델이 실제로 어떤 문제를 해결했는지를 숨길 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

증거의 부재는 증거의 불충분함이 아니다: 사실 검증(Fact Verification)에서의 NEI 구축 아티팩트 진단

요약

핵심 포인트

댓글