arXiv논문2026. 06. 12. 16:19

오디오 LLM을 활용하여 음성-음성 학습 데이터 필터링하기

요약

본 연구는 대규모 음성 코퍼스 내의 노이즈나 오류가 포함된 데이터를 필터링하는 방법을 제안합니다. 오디오-언어 모델을 훈련하여 페어드 스피치로부터 직접 데이터 보존/제거 결정을 내리도록 합니다. 이를 위해 경량 랭커를 이용해 의사 레이블을 생성하고, 이를 기반으로 대규모 오디오 LLM을 학습시켜 음성 조건부 데이터 선택 성능을 높였습니다.

핵심 포인트

오디오-언어 모델로 노이즈 데이터를 필터링하는 방법 연구
2단계 Rank-to-Distill 전략을 활용하여 의사 레이블 생성
음향 충실도와 교차 언어 의미 일관성을 공동으로 포착
S2ST 성능에서 최대 +1.4 ASR-BLEU 개선 달성

대규모로 수집된 코퍼스(corpora)는 종단 간(end-to-end) 음성-음성 번역(S2ST)을 위한 풍부한 훈련 데이터를 제공하지만, 노이즈, 정렬 불일치(misalignment), 의미적 오류를 포함할 수 있습니다. 잡음이 있는 데이터를 필터링하는 것은 강력한 음성 번역 성능을 유지하는 데 매우 중요합니다. 우리는 오디오-언어 모델(audio-language model)을 훈련하여 페어드 스피치(paired speech)로부터 직접 오디오 기반으로 보존/제거(keep/drop) 결정을 내리도록 하는 방법을 연구했습니다. 수동 레이블 없이 신뢰할 수 있는 지도 학습(supervision)을 얻기 위해, 우리는 확장 가능한 2단계 Rank-to-Distill 전략을 채택합니다. 경량의 랭커(ranker)가 잡음이 있는 스피치 페어로부터 보존/제거 의사 레이블(pseudo-labels)을 생성하고, 이후 오디오 대규모 언어 모델(audio large language model)을 훈련하여 원본 페어드 스피치로부터 직접 보존/제거를 예측하게 합니다. 결과적으로 얻은 모델은 음성 조건부 데이터 선택을 위해 음향 충실도(acoustic fidelity)와 교차 언어 의미 일관성(cross-lingual semantic consistency)을 공동으로 포착합니다. CVSS-C 및 SpeechMatrix에서의 실험은 필터링되지 않은 훈련 대비 일관된 개선을 보여주었으며, 종단 간 S2ST에서 최대 +1.4 ASR-BLEU를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

오디오 LLM을 활용하여 음성-음성 학습 데이터 필터링하기

요약

핵심 포인트

댓글