본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 21:26

아랍어 및 방언별 지시문 기반 시 생성

요약

본 연구는 아랍어 시 창작의 실용적인 측면에 초점을 맞추어, 사용자가 원하는 스타일과 운율에 맞춰 시를 생성하도록 돕는 제어 가능한 기능을 도입했습니다. 이를 위해 현대 표준 아랍어(MSA)와 다양한 방언을 포괄하는 대규모 지시문 기반 데이터셋을 구축했습니다. 이 데이터셋으로 LLM을 미세 조정하면, 자동화된 평가와 인간 평가 모두에서 사용자 요구사항에 부합하는 고품질의 시를 효과적으로 생성할 수 있음을 입증했습니다.

핵심 포인트

  • 기존 아랍어 시 연구가 분석(Analysis)에 집중했던 것과 달리, 본 연구는 창작(Generation)이라는 실용적 측면에 초점을 맞췄습니다.
  • MSA와 다양한 방언을 포함하는 대규모 지시문 기반 데이터셋을 구축하여 모델의 범용성을 확보했습니다.
  • 이 데이터셋으로 LLM을 미세 조정하면, 사용자가 지정한 스타일과 운율에 맞는 시를 효과적으로 생성할 수 있습니다.
  • 연구 결과는 자동화된 지표와 실제 아랍어 원어민 평가 모두에서 높은 성능을 보였습니다.

시는 오랫동안 아랍 화자들에게 중심적인 예술 형식으로 자리 잡았으며, 강력한 표현 매체이자 문화적 정체성의 역할을 해왔습니다. 현대 아랍 화자들은 여전히 시를 소중히 여기지만, 대형 언어 모델 (LLMs) 내의 아랍어 시에 대한 기존 연구는 해석이나 메타데이터 예측 (예: 운율 체계 및 제목) 과 같은 분석 작업에 주로 초점을 맞추고 있습니다. 반면,我们的工作은 사용자가 시를 쓰도록 돕기 위해 제어 가능한 생성 기능을 도입함으로써 아랍어 시 창작의 실용적인 측면을 다룹니다. 구체적으로, 우리는 현대 표준 아랍어 (MSA) 와 다양한 아랍어 방언에서 대규모로 신중하게 선별된 지시문 기반 데이터셋을 제시합니다. 이 데이터셋은 스타일과 운율 등 미리 정의된 기준에 따라 시를 작성, 수정 및 이어가는 작업뿐만 아니라 시 분석 수행도 가능하게 합니다. 우리의 실험 결과, 해당 데이터셋으로 LLM 을 미세 조정 (fine-tuning) 하면 자동화된 지표와 모국어 아랍 화자를 대상으로 한 인간 평가 모두에서 사용자 요구사항과 일치하는 시를 효과적으로 생성할 수 있는 모델을 얻을 수 있음을 보여주었습니다. 데이터와 코드는 https://github.com/mbzuai-nlp/instructpoet-ar 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0