KSAA-2026 Task 2의 Thaka: 아랍어 음성 성조 표기(Diacritization)를 위한 정규화된 미세 조정
요약
KSAA-2026 Task 2에서 1위를 차지한 Thaka 시스템을 소개합니다. 소량의 데이터로 아랍어 음성 성조 표기를 수행하기 위해 CATT 텍seq 인코더와 Whisper 음성 인코더를 결합한 멀티모달 모델을 제안합니다.
핵심 포인트
- CATT-Whisper 기반의 문자 수준 멀티모달 모델 활용
- R-Drop 및 Focal Loss를 통한 학습 정규화 적용
- Monte Carlo Dropout을 이용한 추론 성능 최적화
- 23.26%의 WER 달성으로 KSAA-2026 Task 2 우승
우리는 자동 성조 표기(Automatic Diacritization)를 포함한 아랍어 음성 받아쓰기(Arabic Speech Dictation)에 관한 KSAA-2026 공유 태스크(Shared Task) Task 2의 우승 시스템을 설명합니다. 이 태스크는 음성 오디오와 성조가 없는 전사(undiacritized transcripts)로부터 성조가 완전히 표기된 아랍어 텍스트를 생성하는 것을 요구하며, 사용 가능한 학습 샘플은 2,327개뿐이고 외부 데이터 사용은 허용되지 않습니다. 우리의 시스템은 사전 학습된 CATT 텍스트 인코더와 동결된(frozen) Whisper 음성 인코더를 결합한 문자 수준 멀티모달 모델(character-level multimodal model)인 CATT-Whisper를 미세 조정(fine-tunes)합니다. 우리 접근 방식의 핵심은 학습 정규화(training regularization)입니다: R-Drop 일관성 정규화(consistency regularization), 높은 가중치 감쇠(weight decay)를 가진 Optuna 최적화 하이퍼파라미터, 그리고 Focal Loss를 사용합니다. 추론(inference) 시에는 소프트맥스(softmax) 확률 수준에서 몬테카를로 드롭아웃(Monte Carlo Dropout)을 사용하여 4개의 모델 체크포인트에 대해 200번의 확률적 순전파(stochastic forward passes)를 평균합니다. 이 시스템은 주요 리더보드 지표(성조가 없는 위치를 포함한 어미 처리 포함)에서 23.26%의 단어 오류율(WER)을 달성하여 모든 참가자 중 1위를 차지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기