YOMI-Bench: 일본어에 대한 LLM의 한자 읽기 및 음운 이해 능력을 평가하기 위한 벤치마크
요약
일본어 LLM의 한자 읽기 및 음운 이해 능력을 평가하기 위한 새로운 벤치마크인 YOMI-Bench를 제안합니다. 다양한 오픈 소스 및 상용 모델을 평가한 결과, 일본어 특화 모델과 상용 모델 모두 한자 읽기 관련 태스크에서 낮은 성능을 보였습니다.
핵심 포인트
- 일본어 한자의 다중 읽기 특성을 반영한 YOMI-Bench 제안
- 한자 읽기 및 음운 이해를 평가하는 4가지 특화 태스크 구성
- 일본어 특화 모델 및 상용 LLM의 한자 읽기 성능 한계 확인
우리는 일본어에 대한 대규모 언어 모델 (LLMs)의 한자 읽기 및 음운 이해 (phonological understanding) 능력을 평가하기 위한 벤치마크인 YOMI-Bench를 제안합니다. 일본어에서는 하나의 한자 캐릭터가 종종 여러 가지 가능한 읽기 방식을 가지며, 이로 인해 표면적인 텍스트만으로는 정확한 읽기를 추론하기 어렵습니다. 이러한 언어적 특성 때문에, LLMs가 일본어 한자 읽기에서 낮은 성능을 보인다는 것이 경험적으로 알려져 있습니다. 제안된 YOMI-Bench는 일본어 한자 읽기 성능을 평가하기 위해 특별히 설계된 네 가지 태스크로 구성됩니다. YOMI-Bench를 사용한 평가에서, 우리는 하나의 다국어 오픈 LLM, 네 개의 일본어 특화 오픈 LLM, 그리고 다섯 개의 상용 LLMs를 평가했습니다. 그 결과, 일본어 특화 모델조차 낮은 성능을 보이며, 상용 모델 또한 한자 읽기 고려가 필요한 생성 태스크에서 저조한 성능을 보인다는 것을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기