YOMI-Bench: 일본어에 대한 LLM의 한자 읽기 및 음운 이해 능력을 평가하기 위한 벤치마크

우리는 일본어에 대한 대규모 언어 모델 (LLMs)의 한자 읽기 및 음운 이해 (phonological understanding) 능력을 평가하기 위한 벤치마크인 YOMI-Bench를 제안합니다. 일본어에서는 하나의 한자 캐릭터가 종종 여러 가지 가능한 읽기 방식을 가지며, 이로 인해 표면적인 텍스트만으로는 정확한 읽기를 추론하기 어렵습니다. 이러한 언어적 특성 때문에, LLMs가 일본어 한자 읽기에서 낮은 성능을 보인다는 것이 경험적으로 알려져 있습니다. 제안된 YOMI-Bench는 일본어 한자 읽기 성능을 평가하기 위해 특별히 설계된 네 가지 태스크로 구성됩니다. YOMI-Bench를 사용한 평가에서, 우리는 하나의 다국어 오픈 LLM, 네 개의 일본어 특화 오픈 LLM, 그리고 다섯 개의 상용 LLMs를 평가했습니다. 그 결과, 일본어 특화 모델조차 낮은 성능을 보이며, 상용 모델 또한 한자 읽기 고려가 필요한 생성 태스크에서 저조한 성능을 보인다는 것을 발견했습니다.

Insights

YOMI-Bench: 일본어에 대한 LLM의 한자 읽기 및 음운 이해 능력을 평가하기 위한 벤치마크

요약

핵심 포인트

댓글

기본 요소가 아닌 객체로서의 장면

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)