arXiv논문2026. 06. 15. 11:19

망설임 듣는 법 배우기: 비유창성 인지 ASR을 위한 지속 학습 (Continual Learning)

요약

비유창한 발화를 처리할 때 발생하는 정보 손실과 환각 문제를 해결하기 위해 지속 학습(Continual Learning)을 적용한 연구입니다. 명시적인 비유창성 토큰을 도입하여 모델의 치명적 망각을 방지하며 ASR 성능을 개선합니다.

핵심 포인트

비유창성 토큰을 활용한 지속 학습 방법론 제안
기존 ASR 모델의 정보 손실 및 환각 현상 완화
마커 학습과 ASR 성능 간의 트레이드오프 분석
교차 주의 집중 헤드 메커니즘의 일관성 확인

대규모 자동 음성 인식 (ASR) 기술의 발전에도 불구하고, 비유창한(disfluent) 발화는 여전히 어려운 과제로 남아 있습니다. 최첨단 시스템들은 종종 비유창성을 생략하도록 최적화되어 있어, 정보 손실과 환각 (hallucinations) 현상을 초래하기 때문입니다. 기존 연구들은 축자적 전사 (verbatim transcription) 및 비유창성 마커 (disfluency markers)의 통합에 집중해 왔으나, 제한된 데이터셋에서 모델을 적응시키는 과정은 일반 도메인 지식의 치명적 망각 (catastrophic forgetting)으로 이어질 수 있습니다. 본 연구에서는 명시적인 비유창성 토큰 (disfluency tokens)을 활용한 지속 학습 (CL, continual learning)을 통해 이 간극을 해결합니다. 먼저 사전 학습된 ASR 모델에 이러한 토큰들을 도입하여 안정적인 토큰 메커니즘을 구축한 후, 다양한 비유창성 분포를 가진 추가 데이터셋으로 학습을 지속합니다. 학습 과정 중 모델 역학 (model dynamics)에 대한 상세한 분석을 통해, 마커 학습과 ASR 성능 사이의 트레이드오프 (trade-off), 그리고 지속 학습 방법론 전반에 걸쳐 공유되는 일관된 교차 주의 집중 헤드 (cross-attention head) 메커니즘을 확인하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

망설임 듣는 법 배우기: 비유창성 인지 ASR을 위한 지속 학습 (Continual Learning)

요약

핵심 포인트

댓글