arXiv논문2026. 06. 15. 12:38

주의를 기울여 듣기: Transformer 기반 오디오 모델을 위한 엔트로피 가이드 기반 설명 가능성

요약

Transformer 기반 음성 인식(ASR) 모델의 해석 가능성을 높이기 위한 새로운 XAI 프레임워크인 LEAF-X를 제안합니다. 엔트로피 가이드 기반 어텐션 가중치와 다층 롤아웃을 결합하여 모델의 내부 연산을 더 정확하게 반영하는 설명을 생성합니다.

핵심 포인트

LEAF-X 프레임워크를 통한 Transformer 기반 ASR의 설명 가능성 개선
엔트로피 가이드 기반 어텐션 가중치 및 다층 어텐션 롤아웃 활용
기존 방식 대비 충실도(faithfulness) 32% 향상
국소성 및 희소성(locality/sparsity) 35-39% 강화

Whisper와 같은 Transformer 기반 자동 음성 인식 (ASR) 모델은 매우 정확하지만, 그 예측을 해석하기는 여전히 어렵습니다. 기존의 설명 가능한 AI (XAI) 방법들은 충실도 (faithfulness)와 정밀한 시간적 근거 (temporal grounding)가 부족한 경우가 많습니다. 우리는 Transformer 기반 ASR을 위한 모델 내재적 XAI 프레임워크인 LEAF-X (Listening with Entropy-guided Attention for Faithful explainability)를 제안합니다. LEAF-X는 엔트로피 가이드 기반의 어텐션 가중치 부여 (entropy-guided attention weighting), 다층 어텐션 롤아웃 (multi-layer attention rollout), 그리고 선택적인 인과적 절제 (causal ablations)를 결합하여, 엔트로피가 낮고 영향력이 큰 헤드 (heads)와 레이어 (layers)를 식별함으로써 희소한 토큰 대 프레임 귀속 (sparse token-to-frame attributions)을 생성합니다. 섭동 기반 설명기 (perturbation-based explainers)나 가공되지 않은 어텐션 맵 (raw attention maps)과 달리, LEAF-X는 인코더-디코더 (encoder-decoder) 및 음성 증강 디코더 전용 (speech-augmented decoder-only) 모델의 내부 구조를 활용하여 모델 연산을 더 잘 반영하는 설명을 생성합니다. 결과에 따르면 충실도 (faithfulness)가 32% 향상되었고, 국소성/희소성 (locality/sparsity)이 35-39% 더 강력해졌으며, 가장 안정적인 귀속 (attributions)을 보여주어 더욱 투명하고 감사 가능한 ASR을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

주의를 기울여 듣기: Transformer 기반 오디오 모델을 위한 엔트로피 가이드 기반 설명 가능성

요약

핵심 포인트

댓글