정밀도는 충실도가 아니다: 완전한 오라클(Oracle)을 통한 근거 기반 생성의 커버리지 인식 평가
요약
기존의 참조 없는 충실도 지표가 정밀도(Precision)에만 치중되어 모델의 절제(Abstention) 현상을 보상하는 문제를 지적합니다. F1 레이스 및 기상 예보 데이터를 활용해 재현율(Recall)을 포함한 커버리지 인식 평가의 필요성을 입증하고 새로운 지표를 제안합니다.
핵심 포인트
- 기존 충실도 지표는 정밀도만 측정하여 모델의 과도한 절제를 방지하지 못함
- F1 레이스 데이터를 통해 정밀도와 재현율을 동시에 측정하는 벤치마크 구축
- 최첨단 모델들도 관련 사실의 절반 미만만 커버하는 낮은 재현율을 보임
- 충실도와 커버리지를 결합한 단일 점수 지표 및 검증기 가이드 생성법 제안
참조 없는 충실도 지표(Reference-free faithfulness metrics)는 모델이 생성하는 각 원자적 주장(atomic claim)을 실제 정답(ground truth)과 대조하여 검증하며, 근거 기반 생성(grounded generation)을 평가하는 데 점점 더 많이 사용되고 있습니다. 우리는 이러한 지표들이 공통된 사각지대를 공유하고 있음을 보여줍니다. 즉, 이들은 오직 정밀도(precision)—진술된 주장이 뒷받침되는가?—만을 측정하며, 따라서 모델이 거의 아무것도 말하지 않음으로써 완벽에 가까운 충실도 점수를 받을 수 있기 때문에 절제(abstention)에 보상을 줍니다. 우리는 이를 Formula 1 텔레메트리(telemetry)를 사용하여 측정 가능하게 만들었습니다. 이 도메인은 전략적 정답(ground truth)이 결정론적이고, 결정적으로 '완전하게(completely)' 도출되는 영역입니다. 즉, 각 결정에 대해 중요했던 사실들의 전체 집합을 우리가 알고 있습니다. 오픈 도메인(open-domain) 충실도 벤치마크에는 없는 이러한 완전성(completeness) 덕분에, 우리는 정밀도와 함께 재현율(recall, 관련 사실의 커버리지)을 정확하게 측정할 수 있습니다. 150개의 레이스에 걸친 7,253개의 결정 사례를 포함하는 다국어(EN/ES/PT) 벤치마크에서, 가장 정밀한 최첨단 모델(frontier model)은 관련 사실의 절반 미만을 커버하며 F1 점수 기준으로 최하위를 기록했습니다. 따라서 커버리지를 요구하면 시스템의 순위가 재편됩니다. 동일한 효과가 두 번째 완전한 오라클 도메인(NOAA 기상 예보)에서도 다시 나타납니다. 프롬프트 절제 연구(prompt ablation)를 통해 낮은 커버리지가 프롬프트 부족으로 인한 인위적인 현상이 아님을 보여줍니다. 모델에게 철저할 것을 명시적으로 요구해도 격차는 좁혀지지 않습니다. 우리는 충실도를 커버리지와 결합하여 단일 점수로 만들고, 이 지표를 검증했습니다(제어된 섭동(controlled perturbation); 모델이 없는 정규 표현식(regex) 추출기와 교차 계열 LLM 추출기 간의 일치성, 시스템 수준 Spearman 1.0). 또한 참조 없이도 정밀도와 재현율을 향상시키는 검증기 가이드 생성(verifier-guided generation) 방법을 제시합니다. 우리는 벤치마크, 구조화된 주석, 지표, 베이스라인 및 대화형 데모를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기