arXiv논문2026. 06. 23. 11:08

구절 끊기 주석의 효율적이고 견고한 평가를 위한 LLM 기반 다중 참조 평가

요약

음성 구절 끊기 주석의 정확한 평가를 위해 LLM 기반의 다중 참조 평가 방식인 LMRE를 제안합니다. 기존 단일 참조 방식의 한계를 극복하여 운율 구성의 일대다 특성을 효과적으로 모델링합니다.

핵심 포인트

기존 단일 참조 평가의 유연성 부족 문제 해결
LLM을 활용한 다중 참조 평가(LMRE) 프레임워크 제안
한국어 테스트베드 실험을 통해 인간의 판단과 높은 상관관계 입증
음성 도메인 평가에서 LLM의 확장성과 잠재력 확인

운율 경계(prosodic boundaries)의 미세한 변화가 음성의 명확성과 자연스러움에 직접적인 영향을 미치기 때문에, 구절 끊기(phrase break) 주석에 대한 신뢰할 수 있는 평가는 매우 중요합니다. 그러나 기존의 방식들은 주요한 한계를 보입니다. 단일 참조(single-reference) 평가는 여러 가지 유효한 구절 구성이 가능함에도 불구하고 하나의 발화에 대해 유일한 정답(gold phrasing)이 존재한다고 가정하며, 인간의 판단은 유연하지만 노동 집약적이고 확장성이 떨어집니다. 이를 해결하기 위해, 우리는 운율적 구절 구성(prosodic phrasing)의 일대다(one-to-many) 특성을 모델링하고 최소한의 시연(demonstrations)으로부터 여러 개의 유효한 구절 구성을 생성하는 구절 끊기 주석을 위한 LLM 기반 다중 참조 평가(LMRE, LLM-based Multi-Reference Evaluation)를 제안합니다. 5가지 전략을 다루는 1,356개의 주석으로 구성된 한국어 테스트베드에서, LMRE는 수락 동작(acceptance behavior)과 점수 상관관계(score correlation) 모두에서 단일 참조 평가보다 인간의 판단과 더 강력한 일치성을 보여주었습니다. 우리의 연구 결과는 LMRE가 확장성과 다중 참조 지원을 모두 효과적으로 달성함을 입증하며, 음성 도메인 평가에서 LLM의 잠재력을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

구절 끊기 주석의 효율적이고 견고한 평가를 위한 LLM 기반 다중 참조 평가

요약

핵심 포인트

댓글