arXiv논문2026. 06. 19. 12:04

지시문이 음성을 어떻게 형성하는가? 스타일 캡션 기반 텍1-음성 합성(Text-to-Speech)을 위한 교차 주의 집중 기여도 분석

요약

스타일 캡션 기반 TTS 시스템에서 자연어 지시문이 음성 생성에 미치는 영향을 분석한 연구입니다. DAAM 프레임워크를 음성 확산 모델에 적용하여 토큰별 기여도를 시각화하고 스타일 조건화의 메커니즘을 규명했습니다.

핵심 포인트

스타일 토큰은 전역적 조건화 특성을 보이며 시간적 분산이 낮음
스타일 주의 집중은 음성의 F0 및 에너지와 높은 상관관계 보유
스타일 조건화는 초기 스텝과 깊은 레이어에서 가장 활발함
레이어 17에서 주의 집중 엔트로피가 최소화되며 스타일 선택성 극대화

스타일 캡션 기반 텍스트-음성 합성 (Text-to-Speech, TTS) 시스템은 음성 특성을 제어하기 위해 자연어를 사용하지만, 개별 단어가 음향 출력에 어떻게 영향을 미치는지에 대해서는 여전히 불분명합니다. 이를 이해하는 것은 표현력이 풍부한 TTS에서 실패 모드를 진단하고 제어 가능성 (Controllability)을 개선하는 데 매우 중요합니다. 본 연구에서는 음성 확산 모델 (Speech Diffusion Models)을 위한 교차 주의 집중 기여도 (Cross-Attention Attribution) 방식을 제안하며, DAAM 프레임워크를 음성 영역에 처음으로 적용하여 CapSpeech-TTS에 활용합니다. 우리의 방법론은 25개의 레이어 (Layers)와 24개의 ODE 스텝 (Steps)에 걸쳐 토큰별 히트맵 (Per-token heatmaps)을 추출합니다. 우리는 120개의 스타일 캡션이 각각 30개의 텍스트 전사 (Text transcripts) 생성을 조건화하는 3,600개의 (스타일 캡션, 텍스트 전사) 조합을 분석하여, 캡션 토큰이 파형 (Waveforms)을 어떻게 형성하는지 밝혀냅니다. 결과는 다음과 같습니다: (1) 스타일 토큰은 내용/기능 토큰보다 시간적 분산 (Temporal variance)이 낮아 전역적 조건화 (Global conditioning)를 확인시켜 줍니다; (2) 스타일 주의 집중 (Style attention)은 F0 및 에너지 (Energy)와 상관관계가 있습니다; (3) 스타일 조건화는 초기 스텝과 깊은 레이어에서 정점을 찍습니다; (4) 주의 집중 엔트로피 (Attention entropy)는 레이어 17에서 최솟값에 도달하며, 이는 스타일 중요도의 정점과 동시에 발생하여 가장 스타일이 중요한 단계에서 네트워크의 선택성 (Selectivity)이 극대화됨을 나타냅니다. 이는 자연어가 음성 확산 모델의 교차 주의 집중 (Cross-attention)에 어떻게 영향을 미치는지에 대한 첫 번째 연구입니다.

AI 자동 생성 콘텐츠

원문 바로가기

지시문이 음성을 어떻게 형성하는가? 스타일 캡션 기반 텍1-음성 합성(Text-to-Speech)을 위한 교차 주의 집중 기여도 분석

요약

핵심 포인트

댓글