arXiv논문2026. 05. 14. 03:29

Mind the Pause: LLM을 이용한 다국어 음성 교정을 위한 비유창성 인지 목적 함수 튜닝

요약

본 논문은 ASR 전사 데이터에 포함된 비유창성(fillers, repetitions 등)을 효과적으로 제거하기 위해 LLM의 지시어 미세 조정과 대조 학습을 결합한 다국어 교정 파이프라인을 제안합니다. 기존의 단순 탐지 방식이 문법적 일관성을 해치는 문제를 해결하기 위해, 시퀀스 태거의 신호를 활용하여 텍스트를 유창하게 재작성하며 비유창한 토큰의 재현에 페널티를 부여합니다. 인도 3개 언어 실험을 통해 기존 베이스라인 대비 우수한 성능과 문법적/의미적 보존 능력을 입증했습니다.

핵심 포인트

비유창성 탐지를 넘어 LLM의 지시어 미세 조정을 통한 텍스트 재작성(Rewriting) 방식 제안
비유창한 토큰의 재현을 방지하기 위해 대조 학습(Contrastive Learning) 목적 함수 도입
시퀀스 태거를 활용하여 토큰 수준의 단서를 LLM 교정 과정에 통합
힌디어, 벵골어, 마라티어 등 다국어 환경에서 기존 모델 대비 성능 개선 확인
단순 탐지 전략의 한계를 극복하고 문법적/의미적 일관성을 유지하는 확장 가능한 솔루션 제공

자동 음성 인식 (ASR) 전사 데이터는 필러 (fillers), 반복 (repetitions), 그리고 오류 시작 (false starts)과 같은 비유창성 (disfluencies)을 포함하는 경우가 많으며, 이는 가독성을 떨어뜨리고 챗봇이나 음성 비서와 같은 다운스트림 애플리케이션 (downstream applications)의 성능을 저해합니다. 이러한 비유창성을 해결하지 않고 방치할 경우, 다운스트림 시스템의 신뢰성을 크게 저하시킬 수 있습니다. 기존의 대부분의 접근 방식은 제거할 비유창한 토큰 (disfluent tokens)을 식별하는 데 집중하는 전통적인 모델에 의존합니다. 이러한 전략은 어느 정도 효과적이지만, 종종 문법 구조와 의미적 일관성 (semantic coherence)을 해쳐 불완전하거나 부자연스러운 문장으로 이어지기도 합니다. 최근 문헌에서는 대규모 언어 모델 (LLMs)의 사용을 탐구했으나, 이러한 노력은 포괄적인 교정을 수행하기보다는 주로 비유창성 탐지 (disfluency detection) 또는 데이터 증강 (data augmentation)에 집중되어 왔습니다. 우리는 시퀀스 태거 (sequence tagger)가 먼저 비유창한 토큰을 표시하고, 이 신호들이 LLM의 지시어 미세 조정 (instruction fine-tuning)을 가이드하여 전사 데이터를 유창한 텍스트로 다시 쓰도록 하는 다국어 교정 파이프라인을 제안합니다. 신뢰성을 더욱 향상시키기 위해, 우리는 비유창한 토큰의 재현에 대해 페널티를 부여하는 대조 학습 (contrastive learning) 목적 함수를 추가하여, 모델이 비유창한 흔적을 제거하면서도 문법과 의미를 보존하도록 유도합니다. 힌디어 (Hindi), 벵골어 (Bengali), 마라티어 (Marathi)를 포함한 세 가지 인도 언어에 걸친 실험 결과, 다국어 시퀀스 투 시퀀스 (sequence-to-sequence) 모델을 포함한 강력한 베이스라인 (baselines) 대비 일관된 개선을 보여주었습니다. 이러한 결과는 탐지만을 수행하는 전략이 불충분함을 강조합니다. 토큰 수준의 단서 (token-level cues)를 지시어 튜닝 (instruction tuning) 및 대조 학습 (contrastive learning)과 결합하는 것은 음성 기반 NLP 시스템에서 다국어 비유창성 교정을 위한 실용적이고 확장 가능한 솔루션을 제공합니다. 코드는 https://github.com/deepak-kumar-98/Mind-the-Pause 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mind the Pause: LLM을 이용한 다국어 음성 교정을 위한 비유창성 인지 목적 함수 튜닝

요약

핵심 포인트

댓글