대규모 언어 모델(LLM)을 이용한 교차 언어 관계 추출: 루마니아어에 대한 Zero-Shot, Few-Shot 및 Fine-Tuned 평가
요약
본 연구는 저자원 언어인 루마니아어를 대상으로 LLM을 활용한 교차 언어 관계 추출(RE) 성능을 평가합니다. Gemma 4 31B 모델을 사용하여 Zero-shot, Few-shot, QLoRA 미세 조정 성능을 분석하고 기존 인코더 모델과 비교했습니다.
핵심 포인트
- QLoRA 미세 조정 시 macro F1-Score가 22pp 이상 크게 향상됨
- 미세 조정을 통해 영어와 루마니아어 간의 성능 격차를 대폭 감소시킴
- 연산 효율성 측면에서 소형 인코더 모델이 대형 LLM에 근접한 성능을 보임
- 번역된 데이터셋, 평가 코드 및 학습된 모델을 공개함
저자원 언어(low-resource languages)를 위한 관계 추출 (RE)은 일반적으로 주석이 달린 코퍼스(annotated corpora)의 부족으로 인해 제약을 받습니다. 본 연구에서는 자동 데이터셋 번역과 대규모 언어 모델 (LLM) 추론을 결합하여 루마니아어에 대한 교차 언어 RE의 타당성을 조사합니다. 우리는 LLM 기반 번역 파이프라인을 사용하여 SemEval-2010 Task 8 벤치마크를 영어에서 루마니아어로 번역하였으며, 125M에서 560M 파라미터에 이르는 4개의 인코더 베이스라인(XLM-RoBERTa (base 및 large), Romanian BERT, RoBERT-large)과 비교하여 zero-shot, few-shot, 그리고 QLoRA fine-tuned 설정 하에서 Gemma 4 31B를 평가합니다. 우리는 두 가지 태스크 구성인 표시된 엔티티를 활용한 관계 분류 (relation classification)와 엔드투엔드 추출 (end-to-end extraction)을 평가합니다. 연구 결과에 따르면, 프롬프트 전용 (prompt-only) 설정에서 루마니아어는 영어 대비 35 퍼센트 포인트 (pp)의 성능 저하가 발생하며, few-shot 프롬프팅은 zero-shot에 비해 미미한 이득을 제공함을 확인했습니다. 반면, QLoRA 미세 조정 (fine-tuning)은 두 언어 모두에서 macro F1-Score를 22 퍼센트 포인트 이상 향상시키는 동시에, 교차 언어 격차를 3.3pp에서 1.4pp로 줄였습니다. 인코더 베이스라인들은 50250배 더 작음에도 불구하고 루마니아어에서 QLoRA Gemma의 성능에 1~4pp 이내로 근접하였으며, 125M 파라미터의 단일 언어 루마니아어 BERT는 278M의 다국어 XLM-R과 대등한 성능을 보였습니다. 따라서 연산 자원 (compute)이 중요한 배포 시나리오에서 루마니아어 단일 태스크 RE를 위해 31B 모델을 사용하는 근거는 약합니다. 우리는 번역된 데이터셋, 평가 코드 및 학습된 모델을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기