FormalASR: 종단간(End-to-End) 구어체 중국어의 문어체 텍스트 변환

자동 음성 인식 (ASR) 시스템은 일반적으로 축자적 전사 (verbatim transcription)에 최적화되어 있으며, 이는 하류 (downstream) 글쓰기 중심 애플리케이션에는 부적합한 경우가 많은 비유창성 (disfluencies), 채움말 (filler words), 그리고 비격식적인 구어 구조를 그대로 보존합니다. 일반적인 해결책은 사후 편집을 위해 ASR과 LLM을 결합한 2단계 파이프라인을 사용하는 것이지만, 이러한 설계는 지연 시간 (latency)과 메모리 비용을 증가시키며 온디바이스 (on-device) 배포가 어렵습니다. 우리는 구어체 중국어를 격식 있는 문어체 텍스트로 직접 전사하는 두 개의 컴팩트한 종단간 (end-to-end) 모델 (0.6B 및 1.7B)인 FormalASR을 제시합니다. 이러한 설정을 가능하게 하기 위해, 우리는 LLM 기반의 재작성 (rewriting) 및 품질 필터링 (quality filtering)을 통해 구축된 두 개의 대규모 구어체-문어체 데이터셋인 WenetSpeech-Formal과 Speechio-Formal을 구축했습니다. 그 후, 우리는 Qwen3-ASR을 두 가지 규모 (0.6B 및 1.7B)로 지도 미세 조정 (supervised fine-tuning)했습니다. WenetSpeech-Formal 및 Speechio-Formal에 대한 실험 결과, FormalASR은 축자적 전사 베이스라인 대비 최대 37.4%의 상대적 CER (Character Error Rate) 감소를 달성했으며, ROUGE-L 및 BERTScore 또한 향상시켰음을 보여줍니다. FormalASR은 배포 시 사후 처리용 LLM이 필요하지 않으므로, 구어체-문어체 전사를 위한 경량화된 온디바이스 (on-device) 솔루션을 제공합니다.

Insights

FormalASR: 종단간(End-to-End) 구어체 중국어의 문어체 텍스트 변환

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어