arXiv논문2026. 06. 15. 04:04

인간과 유사한 기준 탐색을 통한 제로 소스 LLM 환각 탐지

요약

제로 소스 환경에서 LLM의 환각을 탐지하기 위한 새로운 패러다임인 HCPD를 제안합니다. 인간의 추론 방식을 모방하여 판단 기준을 해석 가능한 가중치 세트로 분해하고, 약한 지도 학습을 통해 모델을 정렬합니다.

핵심 포인트

인간의 다각적 추론을 모방한 HCPD 프레임워크 제안
해석 가능한 기준별 가중치를 통한 환각 탐지
의미론적 일관성을 활용한 보상 기반 정렬 체계 도입
다중 샘플링 집계 전략으로 결정의 견고함 확보
기존 SOTA 모델 대비 우수한 환각 탐지 성능 입증

대규모 언어 모델 (LLMs)은 종종 사실적으로 부정확하거나 불충실한 콘텐츠를 생성하여 환각 (hallucinate) 현상을 일으키며, 이는 모델의 안전한 사용에 상당한 위험을 초래합니다. 이러한 환각을 탐지하는 것은 모델의 내부 정보나 외부 참조를 사용할 수 없고, 오직 텍스트로 된 질의-응답 쌍에만 의존해야 하는 제로 소스 (zero-source) 제약 조건 하에서 특히 어렵습니다. 본 논문에서는 인간 평가자의 다각적인 추론을 모방하는 패러다임인 '인간과 유사한 기준 탐색을 통한 환각 탐지 (Human-like Criteria Probing for Hallucination Detection, HCPD)'를 제안합니다. 이 방식의 핵심은 인간과 유사한 기준 탐색 (Human-like Criteria Probing, HCP) 메커니즘으로, 여기서 LLM 에이전트는 자신의 판단을 해석 가능한 기준들의 가중치 세트로 적응적으로 분해하고, 기준별 점수를 최종적인 진실성 측정치로 통합합니다. 이러한 적응형 능력을 달성하기 위해, 우리는 의미론적 일관성 (semantic consistency)으로부터의 약한 지도 학습 (weak supervision)만을 사용하는 보상 기반 정렬 (reward-based alignment) 체계를 도입합니다. 추론 시에는 완전한 해석 가능성을 유지하면서도 견고한 결정을 보장하기 위해 다중 샘플링 집계 (multi-sampling aggregation) 전략을 채택합니다. 나아가 우리는 우리 접근 방식의 신뢰성을 뒷받침하는 이론적 분석을 제공합니다. 광범위한 실험을 통해 HCPD가 최신 베이스라인 (state-of-the-art baselines) 모델들을 일관되게 능가하며, 제로 소스 환각 탐지를 위한 효과적이고 설명 가능한 솔루션을 제공함을 보여줍니다. 코드는 https://github.com/TRISKEL10N/HCPD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인간과 유사한 기준 탐색을 통한 제로 소스 LLM 환각 탐지

요약

핵심 포인트

댓글