본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 16:13

겉으로는 예의 바르지만 실제로는 틀린: 다국어 뱅골어 생성에서의 경어법 오류 수정을 위한 큐레이션된 데이터셋

요약

뱅골어와 같은 저자원 언어에서 발생하는 경어법 오류를 해결하기 위해 큐레이션된 BLADE 데이터셋과 벤치마킹 프레임워크를 제안합니다. DeepSeek-8B 및 LLaMA-3.2-3B 모델을 LoRA로 미세 조정하여 화용론적 격차를 개선하는 연구를 다룹니다.

핵심 포인트

  • 뱅골어 경어법 오류 해결을 위한 BLADE 데이터셋 공개
  • 4,196개의 정교한 상호작용 쌍으로 구성된 인스트럭션 튜닝 데이터
  • LoRA 및 NF4 양자화를 활용한 매개변수 효율적 미세 조정
  • DeepSeek-8B 및 LLaMA-3.2-3B 모델의 성능 개선 입증

다국어 거대 언어 모델 (Multilingual Large Language Models, MLLMs)의 최근 발전은 교차 언어 대화 능력을 크게 향상시켰으나, 문화적으로 미묘하고 문맥에 의존적인 의사소통을 모델링하는 것은 여전히 중요한 병목 현상으로 남아 있습니다. 구체적으로, 기존의 최첨단 모델들은 뱅골어 (Bangla)와 같은 저자원 (low-resource) 문맥에서 구조적 변이, 지역 관용구, 그리고 경어법 (honorifics)의 일관성을 처리할 때 심각한 화용론적 격차 (pragmatic gap)를 보입니다. 이러한 한계를 해결하기 위해, 우리는 $4,196$개의 세심하게 큐레이션된 상호작용 쌍으로 구성된 extbf{BangLa Application and DialoguE generation - BLADE}를 위한 새로운 문화적 정렬 인스트럭션 튜닝 (instruction-tuning) 데이터셋 및 벤치마킹 프레임워크를 소개합니다. 우리는 이 자원을 활용하여 4-bit NormalFloat (NF4) 양자화 (quantization) 프레임워크 내에서 LoRA 어댑터를 통한 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning)을 사용하여 DeepSeek-8B 및 LLaMA-3.2-3B를 포함한 주요 오픈 웨이트 (open-weight) 아키텍처를 체계적으로 미세 조정하고 평가합니다. 우리의 실증적 평가에 따르면, 우리 데이터셋으로 미세 조정된 모델은 구조적 충실도 (structural fidelity)와 경어법 정렬 (honorific alignment) 측면에서 상당한 개선을 보여주며, 저자원 다국어 텍스트 생성에서 화용론적 격차를 해소하기 위한 엄격한 벤치마크를 제공합니다. 코드 및 데이터셋: https://github.com/ashuvo25/Bangla_Application_LLM/tree/main

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0