문서 근거 제시를 넘어: 코드, 도구 출력 및 문서에 대한 스팬 수준(Span-Level) 환각 탐지

검색 증강 생성 (RAG)을 위한 환각 탐지 (Hallucination detection)는 대개 자연어 문서 증거를 바탕으로 평가됩니다. 그러나 근거 기반 생성 (Grounded generation) 시스템은 소스 코드, 개발자 도구 출력, 마크다운 (Markdown) 문서, 표, 그리고 저장소 메타데이터와 같은 구조화된 입력에 점점 더 많이 의존하고 있습니다. 우리는 코드, 도구 출력, 구조화된 문서, 그리고 기존의 자연어 RAG 데이터셋에 대한 스팬 수준 (Span-level) 환각 탐지를 위한 통합 벤치마크를 소개합니다. 이 벤치마크는 근거가 있는 정답에서 시작하여, 정확한 문자 라벨 (Character labels)과 함께 국소적 환각 (Localized hallucinations)을 주입하고, 증거 기반 검토를 통해 코드 테스트 분할을 검증함으로써 구축되었습니다. 우리가 미세 조정 (Fine-tuned)한 Qwen3.5-2B 탐지기는 통합 테스트 세트에서 0.689의 span-F1을 기록하였고, 코드 에이전트 (Code-agent) 소스에서는 0.60을 기록하며 LettuceDetect-large (0.17) 및 우리가 평가한 가장 강력한 제로샷 (Zero-shot) LLM 판정기들 (최대 0.22)을 실질적으로 능가했습니다. 동일한 모델은 기존의 자연어 벤치마크에서도 경쟁력을 유지하며, 81.8의 RAGTruth example-F1과 0.724의 English PsiloQA IoU를 기록했습니다.

Insights

문서 근거 제시를 넘어: 코드, 도구 출력 및 문서에 대한 스팬 수준(Span-Level) 환각 탐지

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화