증거의 부재는 증거의 불충분함이 아니다: 사실 검증(Fact Verification)에서의 NEI 구축 아티팩트 진단
요약
사실 검증(Fact Verification) 벤치마크에서 '증거의 부재'와 '증거의 불충분함'을 구분하기 위한 NEI-CAP 진단 프로토콜을 제안합니다. 연구 결과, NEI 레이블 구축 방식에 따라 모델의 성능과 학습 양상이 크게 달라짐을 확인했습니다.
핵심 포인트
- 증거 부재와 불충분함의 개념적 차이 규명
- NEI 구축 인지 진단 프로토콜(NEI-CAP) 소개
- 지름길 단서(Shortcut cues)에 의한 모델 취약성 경고
- NEI 역량의 구축 간 전이 불가능성 입증
증거의 부재(Evidence absence)는 증거의 불충분함(Evidence insufficiency)이 아니지만, 사실 검증 (Fact verification) 벤치마크는 이 둘을 관찰상 유사하게 만들 수 있습니다. 정보 부족 (NEI, Not Enough Information) 레이블은 종종 서로 다른 증거 조건들을 통해 실행되며, 이러한 선택은 검증기 (Verifier)가 무엇을 학습하는지, 그리고 그 점수가 무엇을 숨길 수 있는지를 암묵적으로 결정합니다. 우리는 불충분한 증거 평가를 위한 구축 인지 진단 프로토콜인 NEI-CAP를 소개합니다. 각 NEI 예시는 그것을 생성한 구축 계열 (Construction family) 정보를 포함합니다. NEI-CAP는 지름길 단서 (Shortcut cues)를 감사하고, 인간의 판결 (Human adjudication)을 통해 어려운 사례들을 검증하며, 역량이 구축 간에 전이되는지 테스트합니다. 우리는 FEVER 및 HoVer를 제한된 외부 대조군으로 사용하여 SciFact 스타일의 과학적 검증 환경에서 이 프로토콜을 구현합니다. 이러한 설정 전반에 걸쳐, NEI 역량은 안정적으로 전이되지 않습니다. 지름길에 취약한 구축 방식으로 학습된 모델은 의미론적으로 연관된 불충분한 증거를 인식하는 데 실패하며, 혼합 구축 (Mixed-construction) 학습은 격차를 좁히기는 하지만 완전히 해소하지는 못합니다. 고정된 주장 (Fixed-claim) 진단은 증거 조건이 NEI 재현율 (Recall)뿐만 아니라 참조되는 지지/반박 (Support/Refute) 레이블에 대한 신뢰도까지 변화시킨다는 것을 추가로 보여줍니다. 따라서 집계된 NEI 점수는 모델이 실제로 어떤 문제를 해결했는지를 숨길 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기