본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

FormalASR: 종단간(End-to-End) 구어체 중국어의 문어체 텍스트 변환

요약

FormalASR은 구어체 중국어를 격식 있는 문어체 텍스트로 직접 변환하는 종단간(End-to-End) 음성 인식 모델입니다. 기존의 ASR과 LLM을 결합한 2단계 방식 대신 0.6B 및 1.7B 규모의 컴팩트한 모델을 사용하여 지연 시간과 메모리 비용을 줄였습니다. 이를 통해 온디바이스 환경에서도 효율적인 구어체-문어체 전사 솔루션을 제공합니다.

핵심 포인트

  • 기존 ASR의 비유창성 및 비격식적 구조 문제를 해결하기 위해 종단간 모델 방식 채택
  • LLM 기반 재작성 및 품질 필터링을 통해 구축된 WenetSpeech-Formal 및 Speechio-Formal 데이터셋 활용
  • Qwen3-ASR을 지도 미세 조정(SFT)하여 0.6B 및 1.7B 규모의 모델 개발
  • 베이스라인 대비 최대 37.4%의 CER(Character Error Rate) 감소 및 ROUGE-L, BERTScore 향상 달성
  • 사후 처리용 LLM이 필요 없어 경량화된 온디바이스 배포에 최적화

자동 음성 인식 (ASR) 시스템은 일반적으로 축자적 전사 (verbatim transcription)에 최적화되어 있으며, 이는 하류 (downstream) 글쓰기 중심 애플리케이션에는 부적합한 경우가 많은 비유창성 (disfluencies), 채움말 (filler words), 그리고 비격식적인 구어 구조를 그대로 보존합니다. 일반적인 해결책은 사후 편집을 위해 ASR과 LLM을 결합한 2단계 파이프라인을 사용하는 것이지만, 이러한 설계는 지연 시간 (latency)과 메모리 비용을 증가시키며 온디바이스 (on-device) 배포가 어렵습니다. 우리는 구어체 중국어를 격식 있는 문어체 텍스트로 직접 전사하는 두 개의 컴팩트한 종단간 (end-to-end) 모델 (0.6B 및 1.7B)인 FormalASR을 제시합니다. 이러한 설정을 가능하게 하기 위해, 우리는 LLM 기반의 재작성 (rewriting) 및 품질 필터링 (quality filtering)을 통해 구축된 두 개의 대규모 구어체-문어체 데이터셋인 WenetSpeech-Formal과 Speechio-Formal을 구축했습니다. 그 후, 우리는 Qwen3-ASR을 두 가지 규모 (0.6B 및 1.7B)로 지도 미세 조정 (supervised fine-tuning)했습니다. WenetSpeech-Formal 및 Speechio-Formal에 대한 실험 결과, FormalASR은 축자적 전사 베이스라인 대비 최대 37.4%의 상대적 CER (Character Error Rate) 감소를 달성했으며, ROUGE-L 및 BERTScore 또한 향상시켰음을 보여줍니다. FormalASR은 배포 시 사후 처리용 LLM이 필요하지 않으므로, 구어체-문어체 전사를 위한 경량화된 온디바이스 (on-device) 솔루션을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0