arXiv논문2026. 06. 25. 11:21

Soft Dynamic Programming을 통한 완전 미분 가능한 신경망 강제 정렬 (Fully Differentiable Neural

요약

전통적인 HMM-GMM 방식의 한계를 극복하기 위해 소프트 동적 계획법(Soft Dynamic Programming)을 활용한 완전 미분 가능한 신경망 기반의 음소 정렬 모델을 제안합니다. 이 모델은 인코더와 디코더 구조를 통해 음소 정체성과 경계를 정밀하게 탐지하며, 기존 SOTA 기술보다 뛰어난 성능과 언어 일반화 능력을 보여줍니다.

핵심 포인트

소프트 동적 계획법을 통한 완전 미분 가능한 신경망 구조 제안
음소 정체성 검증과 경계 탐지를 위한 이중 브랜치 인코더 설계
대조 손실(Contrastive loss)을 활용한 엔드 투 엔드 최적화
기존 SOTA 대비 우수한 성능 및 미학습 언어에 대한 일반화 입증

시퀀스 모델링 (Sequence modeling)의 최근 발전은 자동 음성 인식 (ASR) 시스템을 크게 개선하여, 인간 수준의 인식 정확도에 근접하게 만들었으며 다양한 음향 조건과 언어 전반에 걸쳐 강건성 (Robustness)을 향상시켰습니다. 이와 대조적으로, 강제 정렬 (Forced Alignment)은 그에 상응하는 발전을 경험하지 못했으며, 전통적인 HMM-GMM 프레임워크가 여전히 널리 채택되어 높은 경쟁력을 유지하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 음소 정렬 (Phoneme alignment)을 위해 특별히 설계된 엔드 투 엔드 (End-to-end) 방식의 완전 미분 가능한 신경망 구조를 제안합니다. 이 모델은 입력 신호를 처리하는 인코더 (Encoder)와 정렬 결정을 생성하는 디코더 (Decoder)로 구성됩니다. 인코더는 두 개의 상호 보완적인 브랜치로 구조화되어 있습니다: 하나는 음소 정체성 검증 (Phoneme identity verification)을 전담하고, 다른 하나는 음소 경계 탐지 (Phoneme boundary detection)를 담당합니다. 디코더는 미분 가능한 소프트 동적 계획법 (Soft dynamic programming)에 기반한 학습 가능한 모듈로 구현됩니다. 전체 시스템은 정상 상태 음소 영역 (Steady-state phoneme regions)과 전이 경계 (Transition boundaries) 사이의 명확한 분리를 장려하는 새로운 대조 손실 (Contrastive loss)을 사용하여 엔드 투 엔드로 최적화됩니다. 제안된 접근 방식은 수작업으로 주석이 달린 영어 벤치마크에서 음소 정렬의 현재 최첨단 (State of the art) 기술보다 뛰어난 성능을 보이며, 강력한 단어 수준 일반화 (Word-level generalization) 결과를 달성하고, 학습되지 않은 언어에 대한 일반화 성능을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Soft Dynamic Programming을 통한 완전 미분 가능한 신경망 강제 정렬 (Fully Differentiable Neural

요약

핵심 포인트

댓글