본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 18:04

다언어 사회에서의 언어 이데올로기: Luxembourgish 뉴스 댓글을 위한 LLM 기반 분석

요약

본 논문은 루크셈부르크의 다언어 사회에서 나타나는 '언어 이데올로기'를 탐지하는 데 대규모 언어 모델(LLM)을 활용하는 방법을 제시한다. 연구진은 Luxembourgish 사용자 댓글 데이터셋을 수동으로 주석화하고, 다양한 프롬프트 조건 하에서 LLM의 성능을 평가하여 인간의 주석 능력을 모방할 수 있는지 검증했다. 또한, 소규모 언어인 Luxembourgish 데이터를 고자원 언어로 기계 번역하는 것이 이데올로기 탐지 작업에 미치는 영향도 분석하였다.

핵심 포인트

  • 언어 이데올로기는 다문화 사회에서 정체성 및 사회적 소속감을 형성하는 중요한 요소이다.
  • LLM은 언어학 및 사회과학 분야에서 언어 이데올로기 탐지 도구로서의 잠재력을 보여준다.
  • 소규모 언어(Low-resource language) 데이터셋을 다루는 경우, LLM의 성능 평가와 함께 기계 번역의 효과를 검토하는 것이 중요하다.
  • LLM이 모든 이데올로기 주석 작업에 완벽하지는 않지만, 실용적인 콘텐츠 식별 도구임을 입증했다.

언어 이데올로기를 탐지하는 것은 담론을 통해 정체성이 어떻게 구성되는지를 이해하기 위해 가치 있지만 복잡한 작업입니다. Luxembourg 의 다문화 및 다언어 사회에서 언어 이데올로기는 단순한 선호도를 넘어 깊은 문화적·사회적 의미를 지니며, 정체성과 사회적 소속감을 형성합니다. 최근 자연어 처리 도구 (NLP) 를 언어학 및 사회과학에 적용하는 발전 이후, 본 논문은 대규모 언어 모델 (LLM) 을 언어 이데올로기 탐지에 활용하는 잠재력을 탐구합니다. 우리는 Luxembourgish 의 사용자 댓글 데이터셋을 사전 정의된 이데올로기 범주와 함께 수동으로 주석화하고, 다양한 프롬프트 조건 하에서 대규모 언어 모델의 성능을 평가하여 이러한 인간 주석 복제 능력을 평가했습니다. Luxembourgish 는 소규모 언어이며 LLM 의 훈련 데이터에 잘 반영되지 않았으므로, 우리는 또한 기계 번역을 통해 데이터를 고자원 언어로 변환하는 것이 이데올로기 탐지 작업의 성능을 향상시키는지 조사했습니다. 우리의 연구 결과는 LLM 이 다분류 이데올로기 주석 작업에 완전히 최적화되지는 않았지만, 언어 이데올로기 콘텐츠를 식별하기 위한 실용적인 도구임을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0