음성 및 텍스트 기반 대규모 언어 모델(LLM)의 일본어 방언 강건성 평가
요약
본 연구는 일본어 방언을 대상으로 LLM과 SLM의 방언 강건성을 평가합니다. 실험을 통해 SLM의 강건성이 텍스트 기반 모델의 성능과 상관관계가 있음을 밝히고, 방언 데이터 학습 및 음성 인코더 미세 조정이 성능 향상에 기여함을 입증했습니다.
핵심 포인트
- 일본어 방언을 활용한 LLM 및 SLM의 강건성 조사
- SLM의 강건성과 텍스트 기반 모델 강건성 간의 상관관계 확인
- 방언 데이터 학습을 통한 SLM 성능 향상 가능성 제시
- 음성 인코더 미세 조정이 방언 이해도에 미치는 긍정적 영향
대규모 언어 모델(LLMs)에 기반한 대화 시스템은 최근 몇 년 동안 크게 발전했습니다. 그러나 방언의 변이는 여전히 주요한 과제로 남아 있으며, 특히 음성 입력을 처리하는 시스템에서 그러합니다. LLM과 음성 처리 구성 요소를 통합한 LLM 기반 음성 언어 모델(SLMs)은 음성 언어 작업에서 유망한 모습을 보이지만, 방언을 이해하는 능력에 대해서는 충분히 연구되지 않았습니다. 더욱이, 기반이 되는 LLM의 방언 이해 능력이 SLM의 성능에 어떻게 영향을 미치는지도 여전히 불분명합니다. 본 연구는 일본어 방언을 테스트 케이스로 사용하여 LLM과 SLM 모두의 방언 강건성(robustness)을 조사합니다. 우리는 공정한 비교를 가능하게 하기 위해 강건성을 표준 입력 대비 방언 입력에서의 성능 비율로 정의합니다. 실험 결과, SLM의 강건성은 텍스트 기반 대응 모델의 강건성과 상관관계가 있음을 보여줍니다. 또한, 방언 데이터를 통한 학습과 음성 인코더(speech encoder)의 미세 조정(fine-tuning)은 각각 SLM의 강건성을 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기