CORTEX: 비교 내부 표현을 통한 RAG에서의 토큰 수준 환각 탐지
요약
RAG 시스템에서 발생하는 국소적 환각을 토큰 수준에서 탐지하는 CORTEX 방법론을 제안합니다. LLM의 내부 표현을 비교하여 문서 유도 효과를 포착함으로써 환각의 위치를 정밀하게 식별합니다.
핵심 포인트
- 토큰 수준의 환각 위치 파악(localization) 가능
- 문서 유도 효과를 활용한 내부 표현 비교 방식
- 이전 토큰의 문맥 정보를 활용해 거짓 양성 감소
- 사후 처리 평활화를 통한 구간 일관성 확보
본 논문에서 우리는 검색 증강 생성 (Retrieval-Augmented Generation, RAG)을 위한 토큰 수준의 환각 탐지 방법인 CORTEX를 제안합니다. 긴 형식의 RAG 출력물에서 환각은 전체 응답에 걸쳐 나타나기보다 국소적인 구간(span)에서 발생하는 경우가 많습니다. 따라서 CORTEX는 토큰 수준에서 근거가 없는 콘텐츠를 식별하여, 환각의 세밀한 위치 파악(localization)을 가능하게 합니다. CORTEX의 핵심 직관은 검색된 문서에 근거한 토큰이 환각된 토큰보다 해당 문서의 영향을 더 강력하게 받아야 한다는 것입니다. 이러한 문서 유도 효과 (document-induced effect)를 포착하기 위해, CORTEX는 검색된 문서가 있는 경우와 없는 경우라는 두 가지 조건 하에서 대규모 언어 모델 (Large Language Model, LLM)의 내부 표현 (internal representations)을 비교합니다. CORTEX는 각 토큰이 검색된 문서에 대해 갖는 즉각적인 민감도에만 의존하는 대신, 이전 토큰들을 통해 문서에 근거한 정보가 전파되는 현상을 활용하여, 이미 증거가 컨텍스트에 흡수된 토큰에 대한 거짓 양성 (false positives)을 줄입니다. 마지막으로, CORTEX는 환각 레이블이 인접한 구간에 걸쳐 지속되는 경향을 모델링하는 사후 처리 평활화 (post-processing smoothing) 단계를 적용하여, 국소적 노이즈를 줄이고 구간 일관적인 예측을 유도합니다. 두 개의 RAG 벤치마크와 세 개의 LLM을 대상으로 한 실험 결과, CORTEX는 토큰 수준의 환각 탐지 성능을 실질적으로 향상시켰으며, 각 구성 요소가 성능 향상에 일관되게 기여함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기