문서 근거 제시를 넘어: 코드, 도구 출력 및 문서에 대한 스팬 수준(Span-Level) 환각 탐지
요약
RAG 시스템의 환각 탐지를 위해 코드, 도구 출력, 구조화된 문서를 포함하는 스팬 수준(Span-level) 통합 벤치마크를 제안합니다. 미세 조정된 Qwen3.5-2B 탐지기는 기존 제로샷 LLM 모델들을 크게 상회하는 성능을 기록했습니다.
핵심 포인트
- 코드 및 구조화된 데이터에 특화된 스팬 수준 환각 탐지 벤치마크 도입
- Qwen3.5-2B 기반 미세 조정 모델의 높은 환각 탐지 성능 입증
- 기존 제로샷 LLM 판정기 대비 압도적인 Span-F1 및 IoU 기록
- 자연어뿐만 아니라 코드 에이전트 소스에서의 실질적 검증 완료
검색 증강 생성 (RAG)을 위한 환각 탐지 (Hallucination detection)는 대개 자연어 문서 증거를 바탕으로 평가됩니다. 그러나 근거 기반 생성 (Grounded generation) 시스템은 소스 코드, 개발자 도구 출력, 마크다운 (Markdown) 문서, 표, 그리고 저장소 메타데이터와 같은 구조화된 입력에 점점 더 많이 의존하고 있습니다. 우리는 코드, 도구 출력, 구조화된 문서, 그리고 기존의 자연어 RAG 데이터셋에 대한 스팬 수준 (Span-level) 환각 탐지를 위한 통합 벤치마크를 소개합니다. 이 벤치마크는 근거가 있는 정답에서 시작하여, 정확한 문자 라벨 (Character labels)과 함께 국소적 환각 (Localized hallucinations)을 주입하고, 증거 기반 검토를 통해 코드 테스트 분할을 검증함으로써 구축되었습니다. 우리가 미세 조정 (Fine-tuned)한 Qwen3.5-2B 탐지기는 통합 테스트 세트에서 0.689의 span-F1을 기록하였고, 코드 에이전트 (Code-agent) 소스에서는 0.60을 기록하며 LettuceDetect-large (0.17) 및 우리가 평가한 가장 강력한 제로샷 (Zero-shot) LLM 판정기들 (최대 0.22)을 실질적으로 능가했습니다. 동일한 모델은 기존의 자연어 벤치마크에서도 경쟁력을 유지하며, 81.8의 RAGTruth example-F1과 0.724의 English PsiloQA IoU를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기