arXiv논문2026. 06. 09. 11:51

다중 입도(Multi-Granular) L2 평가 및 자연어 근거 생성을 위한 미세 조정된 SpeechLLM

요약

다중 입도(Multi-Granular) 평가와 자연어 근거 생성을 위한 SpeechLLM 연구를 소개합니다. SFT와 BDPO를 결합하여 문장 및 단어/음소 수준의 평가를 수행하며, SpeechOcean762 데이터셋에서 우수한 성능을 입증했습니다.

핵심 포인트

SFT와 BDPO를 결합한 하이브리드 학습 방식 제안
문장 및 단어/음소 수준의 다중 입도 평가 가능
평가 결과에 대한 자연어 근거 생성 기능 포함
단어/음소 수준에서는 근거의 충실성이 저하되는 한계 확인

자동화된 L2(제2외국어) 음성 평가는 숙련도 레이블을 부여할 수 있지만, 종종 해석 가능성(Interpretability)이 부족합니다. 본 연구에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)과 유계 직접 선호 최적화(Bounded Direct Preference Optimization, BDPO)를 결합한 하이브리드 목적 함수로 학습된, 다각도 및 다중 입도(Multi-Granular) 평가를 위한 루브릭 가이드 SpeechLLM을 제안합니다. 이 모델은 문장 수준(정확도, 유창성, 운율)의 서열 레이블(Ordinal Labels)과 단어/음소 수준의 정확도를 공동으로 예측하며, 동일한 응답 내에서 자연어 근거(Natural-Language Rationale)를 생성합니다. SpeechOcean762 데이터셋에서 우리의 접근 방식은 단일 입도(Single-Granularity) 모델과 대등하거나 이를 능가하는 성능을 보였으며, 기존 방식들과 비교해도 경쟁력이 있음을 확인했습니다. 우리는 감성 일관성(Sentiment Consistency, 타당성)과 언급 기반 일치도(Mention-based Agreement, 충실성)를 사용하여 모델 예측과의 자기 일관성(Self-consistency) 및 정답 레이블(Ground-truth Labels)과의 정렬이라는 두 가지 축을 따라 근거의 신뢰성을 분석합니다. 분석 결과, 근거는 문장 수준에서는 타당하지만, 단어/음소 수준에서는 충실성이 저하되는 것으로 나타났습니다. 즉, 참조(References)가 희소하고 토큰 수준의 레이블과 약하게 정렬되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 입도(Multi-Granular) L2 평가 및 자연어 근거 생성을 위한 미세 조정된 SpeechLLM

요약

핵심 포인트

댓글