arXiv논문2026. 06. 24. 11:18

Grad Detect: LLM의 그래디언트 기반 환각 탐지 (Gradient-Based Hallucination Detection in

요약

LLM의 환각 현상을 탐지하기 위해 레이어별 그래디언트 패턴을 분석하는 Grad Detect 방법론을 제안합니다. 단 한 번의 순전파-역전파 과정을 통해 출력 신호만으로는 알 수 없는 내부 정보를 활용하여 환각 및 모델 기권 여부를 정확히 예측합니다.

핵심 포인트

그래디언트 기반의 새로운 환각 탐지 프레임워크 Grad Detect 제안
기존 신뢰도 및 샘플링 기반 베이스라인 모델보다 우수한 성능 입증
마지막 5개 레이어에 판별 신호의 97%가 집중됨을 발견
모델의 실패 원인에 대한 해석 가능한 통찰력 제공

대규모 언어 모델 (LLMs)은 다양한 작업에서 놀라운 능력을 보여주었지만, 여전히 환각 (hallucinations)을 생성하는 경향이 있습니다. 이러한 환각을 탐지하는 것은 고위험 애플리케이션에 LLM을 안정적으로 배포하기 위해 매우 중요합니다. 우리는 추론 과정 중 단 한 번의 순전파-역전파 (forward-backward) 패스 동안 레이어별 그래디언트 (gradient) 패턴을 분석하여 환각을 예측하는 그래디언트 기반 접근 방식인 Grad Detect를 제시합니다. 우리의 방법은 모델의 내부 그래디언트 구조가 출력의 정확성에 대한 풍부한 정보를 담고 있음을 보여줍니다. 이 정보는 출력 수준의 신호만으로는 접근할 수 없습니다. 우리는 환각 탐지 및 모델 기권 예측 (model abstention prediction) 모두에 걸쳐 여러 Q&A 벤치마크에서 Grad Detect를 평가하였으며, 여기서 Grad Detect는 신뢰도 기반 (confidence-based) 및 샘플링 기반 (sampling-based) 베이스라인들을 일관되게 능가합니다. 4개의 아키텍처 제품군에 속하는 11개 모델 전체에 대한 포괄적인 레이어 절제 연구 (layer ablation studies)를 통해, 우리는 마지막 5개 레이어가 판별 가능한 그래디언트 신호의 97% 이상을 집중시키고 있음을 발견하였으며, 이를 통해 최소한의 성능 손실로 효율적인 배포가 가능함을 확인했습니다. Grad Detect는 LLM 신뢰성의 다차원적 측면을 예측하기 위한 통합 프레임워크를 제공하며, 강력한 예측 성능과 더불어 모델의 실패가 어디서 어떻게 발생하는지에 대한 해석 가능한 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Grad Detect: LLM의 그래디언트 기반 환각 탐지 (Gradient-Based Hallucination Detection in

요약

핵심 포인트

댓글