arXiv논문2026. 05. 14. 07:08

Sparse Autoencoders를 이용한 ASR 모델의 기계론적 해석 가능성 (Mechanistic Interpretability)

요약

본 연구는 Sparse Autoencoders (SAE)를 Transformer 기반 ASR 모델인 Whisper에 적용하여 그 내부 작동 원리를 해석하는 방법을 제시합니다. SAE를 통해 Whisper 인코더에서 추출된 프레임 수준 임베딩을 학습시켜 고차원 희소 잠재 공간을 구축했습니다. 이를 통해 연구진은 언어적 및 비언어적 경계를 아우르는 다양한 단일 의미 특징과 교차 언어 특징 제어를 성공적으로 입증하며, SAE가 ASR 모델 해석에 효과적임을 보여주었습니다.

핵심 포인트

SAE는 딥러닝 모델의 내부 메커니즘을 이해하는 데 사용되는 기술이다.
기존 연구는 LLM에 SAE를 적용했으나, ASR 모델에는 아직 적용된 사례가 부족했다.
본 연구에서는 Whisper라는 Transformer 기반 ASR에 SAE를 성공적으로 적용하여 임베딩을 학습시켰다.
SAE 분석 결과, 언어적/비언어적 단일 의미 특징과 교차 언어 특징 제어가 가능함을 입증하였다.

산업, 학계, 금융, 의료 등 대중에게 영향을 미치는 다양한 분야에서 Transformer 기반의 딥러닝 NLP 모델이 널리 사용됨에 따라, 이러한 모델의 내부 작동 원리를 이해하는 것이 그 어느 때보다 중요해졌습니다. 이러한 모델들은 급격히 발전해 왔지만, 그 내부 메커니즘은 여전히 상당 부분 미스터리로 남아 있습니다. Sparse Autoencoders (SAE)와 같은 기술은 밀집 표현 (dense representations)을 희소 벡터 (sparse vector)로 투영함으로써 이러한 메커니즘을 이해하기 위해 등장했습니다. 기존 연구들은 텍스트 기반의 대규모 언어 모델 (LLMs)을 해석하는 데 있어 SAE의 실행 가능성을 입증해 왔으나, Automatic Speech Recognizers (ASRs)와 같은 오디오 처리 모델에 SAE를 적용하여 입증한 동등한 연구는 아직 없습니다. 본 연구에서는 Transformer 기반의 ASR인 Whisper에 SAE를 적용하여, Whisper 인코더에서 추출된 프레임 수준의 임베딩 (frame-level embeddings)을 바탕으로 고차원 희소 잠재 공간 (high-dimensional sparse latent space)을 학습시켰습니다. 우리의 연구는 언어적 및 비언어적 경계를 가로지르는 다양한 단일 의미 특징 (monosemantic features)을 발견하였으며, 교차 언어 특징 제어 (cross-lingual feature steering)를 입증하였습니다. 본 연구는 SAE 모델의 실행 가능성을 확립하고, Whisper가 풍부한 양의 언어적 정보를 인코딩하고 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sparse Autoencoders를 이용한 ASR 모델의 기계론적 해석 가능성 (Mechanistic Interpretability)

요약

핵심 포인트

댓글