arXiv논문2026. 06. 11. 17:01

Instruction-Tuned LLM의 디코딩 시간 진실성 방법론에 대한 통제된 연구

요약

본 논문은 CHAIR라는 지도 학습 프레임워크를 제안하며, 모든 토큰의 내부 로짓(logits)을 분석하여 환각(hallucinations)을 탐지합니다. 이 방법은 다양한 통계적 특징을 추출해 과적합 없이 효과적인 환각 탐지를 가능하게 하며, TruthfulQA 및 MMLU 데이터셋에서 높은 성능을 입증했습니다.

핵심 포인트

CHAIR는 내부 로짓 분석 기반의 지도 학습 프레임워크입니다.
다양한 통계적 특징 추출로 과적합 없이 환각 탐지가 가능합니다.
TruthfulQA 및 MMLU에서 제로샷 시나리오 성능이 입증되었습니다.
내부 표현 활용으로 고급 디코딩 전략 설계가 가능합니다.

본 논문에서는 CHAIR (Classifier of Hallucination As ImproveR)를 소개합니다. 이는 모든 토큰의 각 레이어에서 나오는 내부 로짓(logits)을 분석하여 환각(hallucinations)을 탐지하는 지도 학습 프레임워크입니다. 저희 방법은 모든 레이어에 걸친 토큰 로짓으로부터 최대값, 최소값, 평균, 표준 편차, 기울기 등의 간결한 특징 집합을 추출하며, 이를 통해 과적합 없이 효과적인 환각 탐지가 가능합니다. TruthfulQA 및 MMLU 데이터셋에서 수행된 실험은 CHAIR가 특히 제로샷(zero-shot) 시나리오에서 탐지 정확도를 크게 향상시키며, 그 견고성과 일반화 성능을 입증했습니다. 환각 탐지를 넘어, CHAIR는 내부 표현(internal representations)을 활용하여 고급 디코딩 전략을 설계할 수 있는 잠재력을 강조합니다. 로짓의 패턴을 활용함으로써, 저희는 더욱 정교한 모델과 적응형 디코딩 방법이 환각을 추가로 줄이고 텍스트 완성 품질을 향상시킬 수 있다고 제안합니다. CHAIR는 단순히 환각 탐지를 위한 실용적인 해결책을 제공할 뿐만 아니라, LLM의 사실성(factuality)과 일관성을 개선하기 위해 풍부한 표현(representations)을 탐구하는 기반을 마련합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Instruction-Tuned LLM의 디코딩 시간 진실성 방법론에 대한 통제된 연구

요약

핵심 포인트

댓글