CORTEX: 비교 내부 표현을 통한 RAG에서의 토큰 수준 환각 탐지

본 논문에서 우리는 검색 증강 생성 (Retrieval-Augmented Generation, RAG)을 위한 토큰 수준의 환각 탐지 방법인 CORTEX를 제안합니다. 긴 형식의 RAG 출력물에서 환각은 전체 응답에 걸쳐 나타나기보다 국소적인 구간(span)에서 발생하는 경우가 많습니다. 따라서 CORTEX는 토큰 수준에서 근거가 없는 콘텐츠를 식별하여, 환각의 세밀한 위치 파악(localization)을 가능하게 합니다. CORTEX의 핵심 직관은 검색된 문서에 근거한 토큰이 환각된 토큰보다 해당 문서의 영향을 더 강력하게 받아야 한다는 것입니다. 이러한 문서 유도 효과 (document-induced effect)를 포착하기 위해, CORTEX는 검색된 문서가 있는 경우와 없는 경우라는 두 가지 조건 하에서 대규모 언어 모델 (Large Language Model, LLM)의 내부 표현 (internal representations)을 비교합니다. CORTEX는 각 토큰이 검색된 문서에 대해 갖는 즉각적인 민감도에만 의존하는 대신, 이전 토큰들을 통해 문서에 근거한 정보가 전파되는 현상을 활용하여, 이미 증거가 컨텍스트에 흡수된 토큰에 대한 거짓 양성 (false positives)을 줄입니다. 마지막으로, CORTEX는 환각 레이블이 인접한 구간에 걸쳐 지속되는 경향을 모델링하는 사후 처리 평활화 (post-processing smoothing) 단계를 적용하여, 국소적 노이즈를 줄이고 구간 일관적인 예측을 유도합니다. 두 개의 RAG 벤치마크와 세 개의 LLM을 대상으로 한 실험 결과, CORTEX는 토큰 수준의 환각 탐지 성능을 실질적으로 향상시켰으며, 각 구성 요소가 성능 향상에 일관되게 기여함을 보여주었습니다.

Insights

CORTEX: 비교 내부 표현을 통한 RAG에서의 토큰 수준 환각 탐지

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들