본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 11:14

개방적이지만 호환되지 않는: 저자원 아프리카 언어 코퍼스에 대한 라이선스 호환성 분석

요약

아프리카 NLP 코퍼스에 적용된 Creative Commons 라이선스의 호환성 문제를 분석한 연구입니다. 라이선스 충돌, 오표기, 변경 금지 조항으로 인한 데이터 활용 제약 등 네 가지 주요 실패 사례를 제시합니다.

핵심 포인트

  • CC-BY-SA와 CC-BY-NC 간의 데이터 결합 불가 문제 확인
  • NoDerivs 조항이 토큰화 및 주석 달기 등 필수 전처리를 방해
  • 라이선스 오표기 및 데이터 소스 유실 등 데이터 지속성 문제 지적
  • 데이터 활용 전 법적 실사(due diligence)의 중요성 강조

Creative Commons (CC) 라이선스가 아프리카 NLP 코퍼스 공개를 지배하고 있지만, 그 호환성 규칙은 거의 적용되지 않고 있습니다. CC-BY-SA와 CC-BY-NC는 단일 공개 데이터셋으로 결합될 수 없으며, NoDerivs (변경 금지) 조항은 토큰화 (tokenisation) 및 주석 달기 (annotation)를 암묵적으로 금지합니다. 본 논문은 아프리카 NLP에 사용되는 20개 이상의 코퍼스 제품군에 대한 라이선스 출처를 감사하고, 6단계 호환성 매트릭스 (compatibility matrix)를 구축하며, 이를 세 가지 사례 연구 언어인 Kituba/Munukutuba, Zarma, Moore에 적용합니다. 1차 자료 증거를 바탕으로 네 가지 실패 모드가 기록되었습니다: 완전한 금지 (JW300, 서비스 약관 위반이 법적 감사로 확인된 후 OPUS에서 제거됨); 복합 라이선스 오표기 (WAXAL, CC-BY 4.0 주장과 자체 HuggingFace 데이터셋 카드가 상충함); CC-BY 레이블 뒤에 숨겨진 NoDerivs 조항 (Tanzil); 그리고 데이터 지속성 실패 (Congolese Radio Corpus, 405개의 소스 URL 중 402개가 현재 작동하지 않음). 본 논문은 주석 달기 전 실사 (due diligence) 체크리스트와 법적으로 깨끗한 데이터 보강 (enrichment) 기회에 대한 조사를 제시하며 마무리됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0