arXiv논문2026. 06. 23. 11:01

MedHal-Loc: '구조적 설명 가능성'을 갖춘 의료 환각 탐지기는 충실한 지역화(Localization) 도구인가? 지역화 벤치마크

요약

의료 텍스트 내 환각 탐지기의 '지역화(Localization)' 능력을 검증하기 위한 새로운 벤치마크 MedHal-Loc을 제안합니다. 기존의 지식 그래프 기반 모델들이 높은 탐지 성능에도 불구하고 실제 오류 구간을 정확히 짚어내는 지역화 능력은 부족함을 입증했습니다.

핵심 포인트

환각 탐지 시 오류가 발생한 정확한 구간을 지목하는 '지역화 충실도'의 중요성 강조
PubMedQA 기반의 4가지 오류 유형을 포함한 MedHal-Loc 벤치마크 공개
기존 KG-트리플 파이프라인의 낮은 지역화 성능(우연 수준) 확인
탐지 성능이 높다고 해서 반드시 설명 가능한 지역화가 이루어지는 것은 아님을 시사

임상 텍text에서 환각(hallucination)을 탐지하는 것은 점점 더 설명 가능성(explainability) 문제로 정의되고 있습니다. 즉, 시스템은 단순히 신뢰할 수 없는 응답을 표시하는 것에 그치지 않고, 문제가 되는 구간(span)을 지목해야 합니다. 지식 그래프 (KG) 트리플 분해 (triple decomposition)를 기반으로 구축된 아키텍처들은 바로 이러한 감사 가능성(auditability)을 위해 홍보되고 있지만, 이들의 지역화(localization) 능력은 일반적으로 측정되기보다는 가정되어 왔습니다. 우리는 지역화 충실도(localization faithfulness) — 즉, 탐지기가 가장 높게 순위를 매긴 오류 단위가 실제로 오류 구간과 겹치는지 여부 — 를 위한 벤치마크 및 지표인 MedHal-Loc을 소개합니다. 통제된 하위 집합은 4가지 지역화 가능한 유형(개체 치환(entity substitution), 관계 오류(relation error), 메커니즘 오귀속(mechanism misattribution), 날조(invention))에 걸쳐 주입된 단일 구간 수준의 오류를 포함하는 PubMedQA 유래 문장 300개로 구성되며, 구성 방식에 따라 골드 구간(gold spans)을 생성합니다. 보완적인 자연어 하위 집합은 실제 환각이 구간 지역화에 저항하는 확산된 결론 반전(conclusion-flips)에 의해 지배된다는 것을 보여줍니다 (인간 전문가가 18개의 후보 구간 중 1개만을 수락함). 네 가지 세밀한 패러다임을 평가한 결과, 절(clause)당 자연어 추론 (NLI-per-clause), 문장당 일관성 (consistency-per-sentence), 그리고 전용 구간 탐지기인 FAVA는 모두 우연(chance)보다 훨씬 높은 수준으로 지역화를 수행하는 반면, 정교한 KG-트리플 파이프라인은 경쟁력 있는 탐지 F1 점수(0.609)에도 불구하고 약 59%의 개체 추출(entity-extraction) 커버리지에 의해 병목 현상이 발생하여 우연보다 나을 것이 없는 수준(+3.3pp, n.s.)으로 지역화했습니다. 탐지 역량이 충실한 지역화를 의미하지는 않습니다. 아키텍처의 설명 가능성은 가정되는 것이 아니라 검증되어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MedHal-Loc: '구조적 설명 가능성'을 갖춘 의료 환각 탐지기는 충실한 지역화(Localization) 도구인가? 지역화 벤치마크

요약

핵심 포인트

댓글