과학적 유산의 가교: 아랍어-러시아어 병렬 코퍼스 및 지속 가능한 지식 전달을 위한 LLM 벤치마크
요약
아랍어와 러시아어 간의 과학적 지식 교환을 돕기 위한 하이브리드 병렬 코퍼스와 LLM 벤치마크를 제안합니다. LoRA를 활용해 mT5, NLLB, Qwen2.5 모델을 미세 조정하여 번역 성능을 평가했습니다.
핵심 포인트
- 약 27,000개의 문장 쌍으로 구성된 아랍어-러시아어 병렬 코퍼스 구축
- LoRA 및 QLoRA를 활용한 다국어 모델(mT5, NLLB, Qwen2.5) 미세 조정
- Qwen2.5-7B 모델이 제로샷 베이스라인 대비 우수한 번역 성능 기록
- 퓨샷 프롬프팅보다 도메인 특화 미세 조정이 성능 향상에 효과적임
러시아어와 아랍어는 과학적 소통의 주요 언어 중 하나입니다. 언어 장벽은 이러한 커뮤니티 간의 연구 결과 교환을 방해하며, 이는 국제적 협력과 지속 가능성 관련 연구의 진보에 영향을 미칩니다. 본 연구에서는 아랍어-러시아어 과학 번역을 위한 벤치마크를 제시합니다. 이 벤치마크는 과학 초록과 일반 도메인 텍스트(종교, 뉴스, 대화)에서 수집하여 구성된 약 27,000개의 문장 쌍으로 이루어진 하이브리드 병렬 코퍼스 (Parallel Corpus)를 포함합니다. 우리는 LoRA (Low-Rank Adaptation)를 사용하여 세 가지 다국어 언어 모델인 mT5-base (580M 파라미터), NLLB-200-distilled-1.3B (1.3B), 그리고 Qwen2.5-7B-Instruct (7B)를 rank 8, 16, 32, 64로 미세 조정 (Fine-tuning)합니다. QLoRA (rank 8)를 적용한 Qwen2.5-7B 모델은 BLEU 23.15, chrF 43.89, BERTScore 0.906, COMET 0.758을 기록했습니다. 이는 제로샷 (Zero-shot) 베이스라인보다 BLEU는 +4.36, COMET은 +0.051 높은 수치입니다. 세 개의 예시를 사용한 퓨샷 프롬프팅 (Few-shot prompting)은 성능을 향상시키지 못했으며, 이는 도메인 특화 미세 조정 (Domain-specific fine-tuning)이 필요함을 나타냅니다. 우리는 모델, 코퍼스, 그리고 평가 코드를 공개합니다. 과학 텍스트의 언어 장벽을 낮춤으로써, 본 연구는 아랍어 사용 연구자와 러시아어 사용 연구자 간의 지식 교환을 가능하게 합니다. 이는 지속 가능한 파트너십 (UN SDG 17)과 혁신 인프라 (SDG 9)에 기여하며, 기술 주도 지속 가능한 개발에 초점을 맞춘 컨퍼런스의 방향과 일치합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기