스크립트에서 의미론까지: 아프리카 NLI를 위한 프롬프팅 전략
요약
저자원 아프리카 언어의 자연어 추론(NLI) 성능을 높이기 위한 다양한 프롬프팅 전략을 연구했습니다. Llama3.2와 Gemma 모델을 대상으로 실험한 결과, 대조적(Contrastive) 프롬프팅이 가장 안정적인 성능 향상을 보였습니다.
핵심 포인트
- 아프리카 저자원 언어 대상의 프롬프팅 전략 체계적 분석
- 대조적(Contrastive) 프롬프팅이 가장 신뢰할 수 있는 전략으로 입증
- 잘 설계된 프롬프트는 CoT나 Few-shot보다 높은 성능 가능
- 언어 인식 의사결정 구조화가 모델의 강건성 향상에 기여
대규모 언어 모델 (LLMs)은 다국어 환경에서 점점 더 많이 평가되고 있지만, 미세 조정 (fine-tuning) 없는 순수 프롬프팅 (prompting) 환경에서 저자원 아프리카 언어들의 추론 동작은 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 AfriXNLI 벤치마크를 사용하여 스와힐리어 (Swahili), 요루바어 (Yoruba), 하우사어 (Hausa)의 자연어 추론 (NLI)을 위한 프롬프팅 전략에 대한 체계적인 연구를 제시합니다. 우리는 두 가지 중간 크기의 오픈 웨이트 (open weight) 모델 (Llama3.2-3B 및 Gemma3-4B)을 대상으로 베이스라인 (Baseline, zero-shot), 스크립트 인식 (Script-Aware), 언어 특화 (Language Specific), 대조적 (Contrastive), 그리고 모국어 라벨 자기 번역 (Native-Label Self-Translation, NL-STP)의 다섯 가지 프롬프팅 전략을 평가합니다. 프롬프트 설계의 효과를 분리하기 위해, 본 연구에서는 퓨샷 (few-shot) 예시와 생각의 사슬 (Chain-of-Thought, CoT) 추론의 효과를 배제했습니다. 연구 결과, 전략에 따라 클래스별 성능에서 상당한 차이가 있음을 발견했으며, 일부 구성에서는 중립 (neutral) 클래스의 붕괴와 높은 예측 왜곡 (prediction skew)이 나타났습니다. 대조적 (Contrastive) 프롬프팅은 언어와 모델에 관계없이 가장 신뢰할 수 있고 꾸준히 개선되는 전략임이 입증되었으며, 클래스 동작의 균형과 전반적인 정확도 향상 측면에서 더 나은 균형을 보여주었습니다. 특히, 잘 구성된 프롬프트는 퓨샷 프롬프트와 생각의 사슬 (Chain-of-Thought) 프롬프트가 제공된 더 강력한 베이스라인을 능가하기에 충분합니다. 우리는 프롬프트 구성이 저자원 언어를 포함한 다국어 NLI에 필수적이며, 언어 인식 의사결정 구조화 (language aware decision structuring)가 자원이 부족한 환경에서 강건성 (robustness)을 의미 있게 향상시키는 데 사용될 수 있음을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기