arXiv논문2026. 06. 25. 11:26

음성 및 텍스트 기반 대규모 언어 모델(LLM)의 일본어 방언 강건성 평가

요약

본 연구는 일본어 방언을 대상으로 LLM과 SLM의 방언 강건성을 평가합니다. 실험을 통해 SLM의 강건성이 텍스트 기반 모델의 성능과 상관관계가 있음을 밝히고, 방언 데이터 학습 및 음성 인코더 미세 조정이 성능 향상에 기여함을 입증했습니다.

핵심 포인트

일본어 방언을 활용한 LLM 및 SLM의 강건성 조사
SLM의 강건성과 텍스트 기반 모델 강건성 간의 상관관계 확인
방언 데이터 학습을 통한 SLM 성능 향상 가능성 제시
음성 인코더 미세 조정이 방언 이해도에 미치는 긍정적 영향

대규모 언어 모델(LLMs)에 기반한 대화 시스템은 최근 몇 년 동안 크게 발전했습니다. 그러나 방언의 변이는 여전히 주요한 과제로 남아 있으며, 특히 음성 입력을 처리하는 시스템에서 그러합니다. LLM과 음성 처리 구성 요소를 통합한 LLM 기반 음성 언어 모델(SLMs)은 음성 언어 작업에서 유망한 모습을 보이지만, 방언을 이해하는 능력에 대해서는 충분히 연구되지 않았습니다. 더욱이, 기반이 되는 LLM의 방언 이해 능력이 SLM의 성능에 어떻게 영향을 미치는지도 여전히 불분명합니다. 본 연구는 일본어 방언을 테스트 케이스로 사용하여 LLM과 SLM 모두의 방언 강건성(robustness)을 조사합니다. 우리는 공정한 비교를 가능하게 하기 위해 강건성을 표준 입력 대비 방언 입력에서의 성능 비율로 정의합니다. 실험 결과, SLM의 강건성은 텍스트 기반 대응 모델의 강건성과 상관관계가 있음을 보여줍니다. 또한, 방언 데이터를 통한 학습과 음성 인코더(speech encoder)의 미세 조정(fine-tuning)은 각각 SLM의 강건성을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성 및 텍스트 기반 대규모 언어 모델(LLM)의 일본어 방언 강건성 평가

요약

핵심 포인트

댓글