arXiv논문2026. 06. 08. 11:20

숨겨진 표현 스티어링(Steering) 및 희소 오토인코더(SAE)를 통한 Whisper의 환각(Hallucination) 탐지 및 완화

요약

Whisper 모델의 환각 현상을 탐지하고 완화하기 위해 내부 표현과 희소 오토인코더(SAE)를 활용하는 연구를 소개합니다. SAE 기반 스티어링 전략을 통해 음성 인식 성능 저하를 최소화하면서도 환각 발생률을 획기적으로 낮추는 성과를 거두었습니다.

핵심 포인트

Whisper의 오디오 인코더 활성화 값에서 환각 정보 추출 가능
SAE 잠재 변수가 환각 탐지에 있어 높은 판별력을 가짐
SAE 기반 스티어링으로 Whisper large-v3 환각률 86.88%에서 27.33%로 감소
미세 조정(Fine-tuning) 방식과 유사한 수준의 성능 유지

널리 채택된 ASR(Automatic Speech Recognition, 자동 음성 인식) 모델인 Whisper는 환각(Hallucination) 현상, 즉 입력값과 완전히 무관한 비음성 오디오에 대해 일관된 전사(Transcription)를 생성하는 문제로 알려져 있습니다. 본 연구에서는 Whisper의 내부 표현(Internal representations)을 통해 환각을 탐지하고 완화할 수 있는지 조사합니다. 우리는 오디오 인코더 활성화 값(Audio encoder activations)을 추출하고 두 가지 표현 공간인 Whisper의 원시 활성화 값(Raw activations)과 희소 오토인코더(Sparse AutoEncoder, SAE) 잠재 변수(Latents)를 평가합니다. 우리는 두 공간 모두 선형적으로 분리 가능한 환각 관련 정보를 인코딩하고 있으며, 판별력(Discriminative power)이 희소한 특징(Sparse feature) 서브셋에 집중되어 있고 인코더의 깊은 층(Deeper encoder layers)으로 갈수록 증가한다는 것을 보여줍니다. 우리는 두 가지 스티어링(Steering) 전략인 활성화 공간 스티어링(Activation-space steering)과 SAE 잠재 공간 스티어링(SAE latent-space steering)을 제안합니다. 전체 비음성 테스트 세트에 대해 SAE 기반 스티어링을 적용했을 때, 환각 발생률은 Whisper small 모델의 경우 72.63%에서 14.11%로, Whisper large-v3 모델의 경우 86.88%에서 27.33%로 감소하였으며, 음성 데이터에서의 WER(Word Error Rate, 단어 오류율) 저하는 미미하여 미세 조정(Fine-tuning) 기반 방법의 성능에 근접하는 결과를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

숨겨진 표현 스티어링(Steering) 및 희소 오토인코더(SAE)를 통한 Whisper의 환각(Hallucination) 탐지 및 완화

요약

핵심 포인트

댓글