arXiv논문2026. 05. 28. 13:21

대규모 언어 모델(LLM)은 담화 표지어를 처리할 수 있는가? 구어체 말레이어 사례 연구

요약

본 연구는 구어체 말레이어의 담화 표지어를 처리하는 LLM의 능력을 평가하기 위해 MalayPrag 벤치마크를 제안합니다. 실험 결과, 기존 LLM들은 말레이어 담화 표지어의 화용론적 기능을 정확히 파악하는 데 어려움을 겪고 있음이 확인되었습니다.

핵심 포인트

말레이어 담화 표지어 평가를 위한 MalayPrag 벤치마크 제안
LLM의 구어체 및 화용론적 처리 능력 한계 확인
다섯 가지 속성을 활용한 구조화된 스캐폴딩의 필요성 강조

well이나 kind of와 같은 담화 표지어(Discourse particles)는 LLM이 인간과 더 유사하게 "말하도록" 만드는 데 있어 매우 중요한 구성 요소입니다. 이러한 표지어들은 감정, 의도, 그리고 대인 관계적 의미를 전달하는 데 사용됩니다. 그러나 기존 연구들은 담화 표지어를 처리하는 LLM의 능력에 대해 아직 포괄적인 이해를 구축하지 못했습니다. 더욱이, 제한된 수의 연구들이 주로 영어와 같은 고자원 언어(high-resource languages)에 집중되어 있으며, 동남아시아 언어에는 거의 주의를 기울이지 않았습니다. 본 논문에서 우리는 (1) 구어체 말레이어에서 담화 표지어를 처리하는 LLM의 능력을 체계적으로 평가하고 분석하기 위해 설계된 벤치마크인 extsc{MalayPrag}를 제안하며; (2) 담화 표지어의 화용론적 기능(pragmatic functions)을 해석하기 위한 언어학적 근거를 갖춘 통합 프레임워크로서 다섯 가지 속성(attributes)을 소개합니다. 이 두 가지 기여를 적용하여, 우리는 열 개의 기성 LLM(off-the-shelf LLMs)이 세 가지 예측 작업을 수행하도록 프롬프트를 제공했습니다. 실험 결과, 현재의 LLM이 말레이어에서 담화 표지어를 그 화용론적 기능과 정확하게 연결하는 데 상당한 어려움을 겪고 있음이 드러났습니다. 본 연구에서 설계된 다섯 가지 속성을 제공하는 것이 이러한 연결을 유의미하게 개선한다는 사실이 밝혀졌으며, 이는 모델의 화용론적 역량(pragmatic competence)을 위한 구조화된 스캐폴딩(scaffolding)의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)은 담화 표지어를 처리할 수 있는가? 구어체 말레이어 사례 연구

요약

핵심 포인트

댓글