arXiv논문2026. 06. 01. 11:30

저자원 언어를 위한 위키피디아 기반 다국어 및 교차 언어 인용 필요성 탐지

요약

저자원 언어를 위한 다국어 인용 필요성 탐지(CND) 코퍼스인 MCN을 소개합니다. 연구 결과, 특정 작업에 미세 조정된 소형 언어 모델(SLM)이 프롬프트를 사용하는 대규모 언어 모델(LLM)보다 저자원 언어 환경에서 더 우수한 성능을 보였습니다.

핵심 포인트

18개 언어를 포함하는 다국어 CND 코퍼스 MCN 공개
인코더 스타일로 미세 조정된 SLM이 LLM보다 높은 성능 기록
영어 데이터로 학습된 SLM이 교차 언어 환경에서 LLM 능가
저자원 언어 환경에서는 LLM보다 특화된 SLM이 더 효율적임

자동 사실 확인 (Automated Fact-Checking, AFC)에서, 확인 가치 탐지 (Check-worthiness detection)는 도메인별 기준에 따라 검증이 필요한 주장을 식별합니다. 위키피디아에서 이 작업은 뒷받침하는 인용이 부족한 주장을 표시하는 인용 필요성 탐지 (Citation Needed Detection, CND)로 구현됩니다. 그러나 기존 연구는 저자원 언어 (Lower-resource languages)를 대체로 간과해 왔으며, 최근의 AFC 파이프라인은 저자원 조직들이 접근하기 어려운 대규모 언어 모델 (Large Language Models, LLMs)에 의존하고 있습니다. 본 연구에서는 세 가지 자원 수준에 걸쳐 18개 언어를 아우르는 다국어 CND 코퍼스인 MCN을 소개하며, 이를 바탕으로 소형 디코더 기반 언어 모델 (Small Decoder-based Language Models, SLMs)에 대한 광범위한 연구를 수행합니다. 실험 결과, 인코더 스타일의 목적 함수 (Encoder-style objective)로 미세 조정된 SLM이 모든 언어에서 프롬프트를 사용한 LLM보다 실질적으로 우수한 성능을 보임을 확인했습니다. 나아가 우리는 교차 언어 (Cross-lingual) CND에 관한 최초의 연구 중 하나를 제시하며, 영어 주장만으로 미세 조정된 SLM이 대상 언어에 대한 적응이 거의 없거나 전혀 없는 상태에서도 LLM을 능가함을 입증했습니다. 우리의 연구 결과는 저자원 위키피디아 커뮤니티에 중요한 시사점을 제공하며, CND를 위해서는 LLM보다 작고 작업 특화된 모델이 더 바람직함을 시사합니다. 모든 데이터와 코드는 https://github.com/gerritq/mcn 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저자원 언어를 위한 위키피디아 기반 다국어 및 교차 언어 인용 필요성 탐지

요약

핵심 포인트

댓글