arXiv논문2026. 06. 29. 11:24

신호에서 전이로: 대규모 언어 모델(LLM)의 프로브 기반 불확실성 추정(Uncertainty Estimation)에 관한 요인별 연구

요약

LLM의 환각 탐지를 위한 프로브 기반 불확실성 추정(UE)의 성능 결정 요인을 분석한 연구입니다. 특징 설계, 데이터 구축, 평가 설정이 성능에 미치는 영향을 비교하며, 분포 변화 상황에서의 견고한 특징 활용과 최적의 프롬프팅 방식을 제안합니다.

핵심 포인트

프로브 기반 UE의 성능을 결정하는 요인별 비교 연구 수행
분포 변화 상황에서는 구조화된 특징이 더 견고한 성능을 보임
프롬프팅과 레이블 구축 방식이 프로브 동작에 큰 영향을 미침
개방형 사실 생성에 전이 가능한 사전 학습된 프로브 제공

프로브 기반 불확실성 추정 (Uncertainty Estimation, UE)은 모델 내부의 신호로부터 불확실성을 학습함으로써 대규모 언어 모델 (Large Language Models, LLMs)의 환각 (hallucinations)을 탐지하는 유망한 접근 방식으로 부상했습니다. 그러나 최근의 방법론들은 특징 설계 (feature design), 학습 데이터 구축 (training data construction), 그리고 평가 설정 (evaluation setting) 측면에서 동시에 변화하고 있어, 실제로 무엇이 성능을 견인하는지 불분명하게 만들고 있습니다. 이 문제를 해결하기 위해, 우리는 동일한 조건 하에서 프로브 기반 UE에 대한 요인별 연구 (factorised study)를 제안합니다. 우리의 연구 결과에 따르면, 가공되지 않은 은닉 상태 (raw hidden states)와 어텐션 특징 (attention features)은 도메인 내 (in-domain) 성능에서 이를 능가하기 어렵습니다. 하지만 분포 변화 (distribution shift) 상황에서는 구조화되고 압축된 특징들이 더 견고하며, 이는 도메인 내 성능만으로는 발전 정도를 측정하기에 불충분함을 시사합니다. 나아가, 프롬프팅 (prompting)과 레이블 구축 (label construction)은 프로브의 동작에 상당한 영향을 미칩니다. 이러한 최적의 관행 (best-practice) 발견을 바탕으로, 우리는 벤치마크 기반의 사전 학습된 프로브 (pretrained probes)를 학습시켰으며, 이는 개방형 사실 생성 (open-ended factual generation)으로 상당히 잘 전이되어 안정적인 즉시 사용 가능한 (off-the-shelf) 베이스라인을 제공합니다. 우리의 연구는 프로브 기반 불확실성 추정기에 대한 보다 배포 지향적인 (deployment-oriented) 평가를 장려합니다. 코드 저장소는 https://github.com/ponhvoan/ProbeUE 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

신호에서 전이로: 대규모 언어 모델(LLM)의 프로브 기반 불확실성 추정(Uncertainty Estimation)에 관한 요인별 연구

요약

핵심 포인트

댓글