본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 13:21

대규모 언어 모델(LLM)은 담화 표지어를 처리할 수 있는가? 구어체 말레이어 사례 연구

요약

본 연구는 구어체 말레이어의 담화 표지어를 처리하는 LLM의 능력을 평가하기 위해 MalayPrag 벤치마크를 제안합니다. 실험 결과, 기존 LLM들은 말레이어 담화 표지어의 화용론적 기능을 정확히 파악하는 데 어려움을 겪고 있음이 확인되었습니다.

핵심 포인트

  • 말레이어 담화 표지어 평가를 위한 MalayPrag 벤치마크 제안
  • LLM의 구어체 및 화용론적 처리 능력 한계 확인
  • 다섯 가지 속성을 활용한 구조화된 스캐폴딩의 필요성 강조

well이나 kind of와 같은 담화 표지어(Discourse particles)는 LLM이 인간과 더 유사하게 "말하도록" 만드는 데 있어 매우 중요한 구성 요소입니다. 이러한 표지어들은 감정, 의도, 그리고 대인 관계적 의미를 전달하는 데 사용됩니다. 그러나 기존 연구들은 담화 표지어를 처리하는 LLM의 능력에 대해 아직 포괄적인 이해를 구축하지 못했습니다. 더욱이, 제한된 수의 연구들이 주로 영어와 같은 고자원 언어(high-resource languages)에 집중되어 있으며, 동남아시아 언어에는 거의 주의를 기울이지 않았습니다. 본 논문에서 우리는 (1) 구어체 말레이어에서 담화 표지어를 처리하는 LLM의 능력을 체계적으로 평가하고 분석하기 위해 설계된 벤치마크인 extsc{MalayPrag}를 제안하며; (2) 담화 표지어의 화용론적 기능(pragmatic functions)을 해석하기 위한 언어학적 근거를 갖춘 통합 프레임워크로서 다섯 가지 속성(attributes)을 소개합니다. 이 두 가지 기여를 적용하여, 우리는 열 개의 기성 LLM(off-the-shelf LLMs)이 세 가지 예측 작업을 수행하도록 프롬프트를 제공했습니다. 실험 결과, 현재의 LLM이 말레이어에서 담화 표지어를 그 화용론적 기능과 정확하게 연결하는 데 상당한 어려움을 겪고 있음이 드러났습니다. 본 연구에서 설계된 다섯 가지 속성을 제공하는 것이 이러한 연결을 유의미하게 개선한다는 사실이 밝혀졌으며, 이는 모델의 화용론적 역량(pragmatic competence)을 위한 구조화된 스캐폴딩(scaffolding)의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0