arXiv논문2026. 06. 05. 14:06

병리적 음성 인식을 위한 SpeechLLM의 FiLM 기반 화자 조건화 (Speaker Conditioning)

요약

병리적 음성 인식을 개선하기 위해 FiLM 기반의 화자 조건화 기술을 제안합니다. 고정된 ASR 인코더의 레이어에 x-vector 정보를 주입하여 모델 가중치 수정 없이도 개별 화자에게 적응시키는 방식을 연구했습니다.

핵심 포인트

FiLM을 활용한 매개변수 효율적 화자 조건화 방식 제안
고정된 ASR 인코더를 유지하며 병리적 음성에 적응 가능
표준 및 매개변수 효율적 미세 조정 모델과 성능 비교
음성 관련 질의응답 능력 유지 여부 검증

자동 음성 인식 (ASR) 기술은 표준 음성에 대해 놀라운 발전을 이루었으나, 신경학적 질환으로 인한 병리적 음성 (pathological speech)은 여전히 큰 과제로 남아 있습니다. 본 연구에서는 Feature-wise Linear Modulation (FiLM)을 통한 화자 조건화 (speaker conditioning)를 조사하며, 고정된 (frozen) ASR 인코더의 각 Transformer 레이어에 x-vector 유래 정보를 주입함으로써 기본 모델의 가중치를 수정하지 않고도 내부 표현 (internal representations)을 개별 병리적 화자에게 적응시킵니다. 우리는 스페인어 및 영어 병리적 음성을 대상으로 후처리 (post-processing)를 결합하여, 표준 및 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning) 베이스라인과 비교하여 ASR 작업에 대한 벤치마크를 수행합니다. 또한, 적응된 모델이 음성 관련 질문에 답하는 능력을 유지하는지 평가합니다. 결과에 따르면, 화자 조건화된 ASR은 조건화되지 않은 음성에 대한 성능을 유지하면서도 기존의 적응 전략들과 경쟁할 만한 수준임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

병리적 음성 인식을 위한 SpeechLLM의 FiLM 기반 화자 조건화 (Speaker Conditioning)

요약

핵심 포인트

댓글