arXiv논문2026. 05. 27. 12:20

PersLitEval: 페르시아 문학 질문에 대한 LLM의 세밀한 벤치마크 및 평가

요약

비영어권 언어의 문학적 지식 평가를 위해 8개 카테고리, 4,514개 문항으로 구성된 PersLitEval 벤치마크를 제안합니다. 6개 LLM을 대상으로 평가한 결과, 모델들이 개념적 이해에는 강하나 형식적 언어 분석과 철자 작업에는 취약함을 확인했습니다.

핵심 포인트

페르시아 문학 특화 벤치마크 PersLitEval 공개
LLM의 형식적 언어 분석 및 철자 작업 능력 한계 확인
설명이 포함된 퓨샷 프롬프팅이 성능 향상에 효과적
의미론적 이해, 형식적 지식, 개수 오류 등 3가지 실패 모드 식별

인상적인 다국어 능력에도 불구하고, 거대 언어 모델 (LLMs)은 비영어권 언어의 문학적 지식에 대한 평가는 여전히 미흡한 상태입니다. 본 연구에서는 Konkur 대학 입시 자료에서 추출한 철자 (spelling), 문학적 장치 (literary devices), 문법 (grammar), 어휘 (vocabulary), 단어 형성 (word formation), 개념적 이해 (conceptual understanding)를 아우르는 8개의 세밀한 카테고리에 걸친 4,514개의 페르시아 문학 객관식 질문 벤치마크인 PersLitEval을 소개합니다. 우리는 10가지 프롬프팅 전략 (prompting strategies)에 따라 6개의 LLM을 평가하였으며, 그 결과 세 가지 단계의 작업 난이도 전반에 걸쳐 눈에 띄는 카테고리별 격차를 발견했습니다. 모델들은 개념적 유사성 (conceptual similarity) 작업에서는 더 높은 정확도에 도달하지만, 형식적 언어 분석 (formal linguistic analysis)에는 어려움을 겪었으며, 모든 모델에서 철자와 단어 형성이 가장 어려운 것으로 나타났습니다. 프롬프팅 전략은 성능에 상당한 영향을 미치며, 설명이 포함된 퓨샷 예시 (few-shot examples)가 특히 형식적 언어 카테고리에서 가장 좋은 결과를 냈습니다. 오류 분석을 통해 세 가지 실패 모드(failure modes)를 식별했습니다: 의미론적 이해 (semantic comprehension) 격차, 형식적 언어 지식 (formal linguistic knowledge) 격차, 그리고 개수/열거 (counting/enumeration) 오류이며, 이는 서로 다른 카테고리에 따라 서로 다른 개선 전략이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PersLitEval: 페르시아 문학 질문에 대한 LLM의 세밀한 벤치마크 및 평가

요약

핵심 포인트

댓글