arXiv논문2026. 05. 06. 17:11

시리아어 텍스트 생성을 위한 대규모 언어 모델의 파라미터 효율적 미세 조정 벤치마킹

요약

본 논문은 키릴 문자를 사용하는 저자원 언어인 시리아어(Tajik)를 위한 생성형 대규모 언어 모델(LLM) 적응 방안을 제시합니다. 연구진은 31만 건의 문서로 구성된 시리아어 웹 코퍼스를 구축하고, 전체 미세 조정, LoRA, QLoRA 등 다양한 PEFT 전략을 적용하여 성능을 비교 분석했습니다. 그 결과, Mistral 7B 모델에 QLoRA(r=16)를 적용했을 때 가장 우수한 성능(평균 퍼플렉시티 5.03)을 달성했으며, 이는 계산 효율성과 품질 유지 측면에서 실질적인 가치를 제공함을 입증했습니다.

핵심 포인트

저자원 언어(시리아어/Tajik)를 위한 대규모 오픈 코퍼스 구축 및 공개 (319,298개 문서).
다양한 PEFT 기법(LoRA, QLoRA 등)을 사용하여 시리아어 텍스트 생성 모델의 효율성을 체계적으로 비교 분석함.
Mistral 7B와 QLoRA(r=16) 조합이 가장 낮은 퍼플렉시티를 기록하며 최적의 성능과 계산 효율성을 보여줌.
전체 미세 조정은 작은 모델에서 우수할 수 있으나 재앙적 망각 위험이 있으며, PEFT 전략 선택 시 신중한 접근이 필요함.

본 논문은 시리아어 (Tajik) 언어를 위한 생성형 대규모 언어 모델의 적응을 목적으로 합니다. 시리아어는 키릴 문자를 사용하는 저자원이 언어입니다. 디지털 텍스트 자원의 부족을 극복하기 위해, 저자는 시리아어 웹 코퍼스 (Tajik Web Corpus) 를 생성하고 공개했습니다. 이 코퍼스는 319,298 개의 문서 (~11 억 개자) 를 포함하는 시리아어의 가장 큰 오픈 액세스 코퍼스입니다. 10,000 개의 문서 샘플에서 17 가지 구성이 벤치마킹되었으며, 세 가지 미세 조정 전략 (전체 미세 조정, LoRA, QLoRA (랭크 8 와 16)) 을 포함한 자동 회귀형, 인코더 - 디코더, 인코더 전용 모델이 포함되었습니다. 품질은 퍼플렉시티와 크로스 엔트로피 손실로 평가되었으며, 피크 GPU 메모리 및 학습 시간도 기록되었습니다. 가장 좋은 결과는 Mistral 7B 와 QLoRA (r=16) 로 달성되었습니다: 평균 퍼플렉시티 5.03, 표준 편차 0.03. 랭크를 8 에서 16 으로 증가시키기는 통계적으로 유의미한 개선이 없었으나 메모리 소비를 증가시켰습니다. 작은 GPT-2 계열 모델의 경우 전체 미세 조정은 LoRA (7.60-8.42) 보다 낮은 퍼플렉시티 (GPT-2 Medium: 3.48) 를 제공했지만, 재해적 망각을 유발했습니다. 인코더 전용 XLM-RoBERTa 는 가장 나쁜 결과를 보였습니다 (퍼플렉시티 59.3). 혁신성은 검증된 시리아어 코퍼스 생성과 시리아어 텍스트 생성을 위한 PEFT 효과에 대한 첫 번째 체계적 분석에 있습니다. 실용적인 가치는 계산 비용 최적화 없이 품질 손실을 최소화하는 아키텍처 및 미세 조정 전략 선택의 권고에 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

시리아어 텍스트 생성을 위한 대규모 언어 모델의 파라미터 효율적 미세 조정 벤치마킹

요약

핵심 포인트

댓글