arXiv논문2026. 04. 29. 16:04

위키 덤프를 훈련 코퍼스로 변환: 남슬라브어 사례

요약

본 기술 기사는 7개 남슬라브어의 원시 위키미디어 덤프를 고품질 훈련 코퍼스로 변환하는 방법론을 제시합니다. 이 과정은 첫째, 복잡한 위키 마크업에서 자연어 텍스트를 추출하고 정제하며, 둘째, n-gram 기반 필터링 전략을 사용하여 반복적이거나 저품질의 콘텐츠(예: 구조화된 지식 베이스 기사)를 제거하는 두 단계로 진행됩니다. 이를 통해 언어 모델 훈련 및 남슬라브어 비교 연구에 적합한 신뢰성 높고 정보 밀도가 높은 코퍼스를 구축합니다.

핵심 포인트

원시 위키미디어 덤프에서 고품질 텍스트를 추출하기 위해 복잡한 전처리 과정이 필요함.
추출된 데이터셋의 품질을 향상시키기 위해 n-gram 기반 필터링 전략을 사용하여 중복성 및 저품질 기사를 제거함.
제시된 방법론은 남슬라브어에 국한되지 않고 다른 언어와 어족에도 일반화하여 적용 가능함 (language-agnostic).
최종 목표는 단순 텍스트가 아닌, 실제 언어 사용과 문화적 맥락을 반영하는 풍부하고 신뢰할 수 있는 코퍼스를 구축하는 것임.

본 논문은 7 가지 남슬라브어 (South Slavic languages) 의 고품질 텍스트 코퍼스 (textual corpora) 로 원시 위키미디어 덤프 (raw Wikimedia dumps) 를 변환하는 방법론을 제시합니다. 이 작업은 두 주요 단계로 나뉩니다. 첫 번째 단계는 위키백과, 위키소스, 위키북스, 위키뉴스 및 위키인용집의 원시 덤프에서 텍스트를 추출하고 정제하는 것으로, 해당 자료가 있는 경우 수행됩니다. 이 과정에서는 원시 위키 마크업 (raw wiki markup) 을 신중하게 처리하여 우선 텍스트 기반 기사 (textual articles) 를 분리한 후, 그 안에서도 활용 가능한 자연어 텍스트 (usable natural language text) 를 추출해야 합니다. 두 번째 단계는 데이터베이스나 구조화된 지식 베이스 (structured knowledge bases) 에서 생성된 경우가 많으며 반복적인 패턴 (repetitive patterns), 일반적인 표현 (generic phrasing), 그리고 원본 콘텐츠가 거의 없거나 전혀 없는 의심스러운 또는 저품질의 기사 (suspicious or low-quality articles) 의 문제를 해결합니다. 이러한 기사의 영향을 완화하기 위해 n-gram 기반 필터링 전략 (n-gram-based filtering strategy) 을 사용하여 기사 간 높은 수준의 텍스트 중복성 (textual redundancy) 을 감지한 후, 해당 기사를 코퍼스에서 완전히 제거했습니다. 얻어진 데이터셋은 언어 모델 훈련이나 남슬라브어 간의 비교 연구를 수행하는 데 적합한 언어학적으로 풍부한 텍스트 (linguistically rich texts) 를 제공하는 것을 목표로 합니다. 체계적인 추출과 품질 관리 (quality control) 를 결합함으로써 본 작업은 진정한 언어 사용과 문화적 맥락을 반영하는 신뢰할 수 있고 고정보의 코퍼스 (reliable, high-information corpora) 를 구축하는 데 기여합니다. 논문에서 남슬라브어 사례에 초점을 맞추고 있지만, 이 접근법은 대부분 언어와 무관 (language-agnostic) 하여 다른 언어 및 어족으로 일반화할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

위키 덤프를 훈련 코퍼스로 변환: 남슬라브어 사례

요약

핵심 포인트

댓글