arXiv논문2026. 06. 09. 10:45

환각 탐지(Hallucination Detection)를 위한 교차 패러프레이징 불변성 학습 (Cross Paraphrastic

요약

LLM의 환각 현상을 탐지하기 위해 적은 레이블 데이터로도 높은 성능을 내는 2단계 시암 프레임워크 CPIL을 제안합니다. 패러프레이징 불변성 학습과 하드 네거티브 채굴을 통해 효율적인 임베딩 공간을 구축합니다.

핵심 포인트

CPIL: 패러프레이징 불변성을 활용한 2단계 시암 프레임워크
데이터 효율성: 단 1%의 레이블 데이터로 기존 베이스라인 능가
학습 방식: 대조 사전 학습 및 경량 이진 분류기 구조
성능 검증: LLM-AggreFact 벤치마크에서 우수한 F1 점수 기록

대규모 언어 모델 (LLMs)은 소스 문서에 의해 뒷받침되지 않는 환각 (hallucinations)을 빈번하게 생성합니다. 비용이 많이 드는 LLM-as-evaluator 파이프라인과 기존 분류기(classifiers)의 과도한 어노테이션(annotation) 요구 사항을 피하기 위해, 우리는 기존의 레이블된 데이터(labeled data)의 유용성을 극대화하는 2단계 시암 프레임워크 (Siamese framework)인 CPIL (Cross Paraphrastic Invariance Learning)을 제안합니다. 구체적으로, CPIL은 다음과 같은 방식으로 정보가 풍부한 학습 쌍(training pairs)을 구축합니다: (i) 각 문서-주장(document-claim) 예시의 패러프레이징된 뷰(paraphrastic views)를 긍정 예시(positives)로 생성하고, 표면 형태(surface form)에 대한 불변성(invariance)을 강제하기 위해 이들의 표현(representations)을 명시적으로 정렬하며; (ii) 문서 민감한 결정 경계(decision boundaries)를 날카롭게 만들기 위해 동일 문서 내의 반대 레이블 쌍(opposite-label pairs)을 하드 네거티브(hard negatives)로 채굴합니다. 그 후 CPIL은 2단계 모델 학습을 수행합니다: 1단계에서는 패러프레이즈 불변적이고 근거 인식적인(grounding-aware) 임베딩 공간(embedding space)을 학습하기 위해 대조 사전 학습(contrastive pretraining)을 수행하며; 2단계에서는 이진 근거성(binary groundedness)을 위한 경량 분류기(lightweight classifier)를 부착합니다. LLM-AggreFact 벤치마크 (11개 태스크)에서 CPIL은 단 ~1%의 레이블된 데이터만으로도 F1 점수 측면에서 강력한 베이스라인(baselines)을 능가하며, 예측 우수성과 레이블 효율성을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

환각 탐지(Hallucination Detection)를 위한 교차 패러프레이징 불변성 학습 (Cross Paraphrastic

요약

핵심 포인트

댓글