arXiv논문2026. 06. 05. 14:05

"Chi nas dal soch el sent de legn" -- 롬바르드어(Lombard)를 위한 텍스트 코퍼스(Text Corpora)

요약

본 연구는 저자원 언어인 롬바르드어의 텍스트 코퍼스를 수동 감사하여 데이터 품질 문제를 분석합니다. 웹 스크래핑 데이터의 오식별 및 노이즈 문제를 지적하며, 특정 방언에 치우친 데이터 편향성을 밝혀냈습니다.

핵심 포인트

웹 스크래핑 데이터의 언어 오식별 및 노이즈 문제 확인
서부 롬바르드 변이형에 편중된 데이터 구성 및 편향성 발견
단순 양적 확장보다 커뮤니티 주도의 데이터 큐레이션 필요성 강조
상충하는 철자 체계 및 표현 편향성 분석

세계의 여러 언어들은 여전히 자연어 처리 (NLP) 도구 측면에서 자원이 부족한 상태입니다. 이는 주로 기계 번역 (MT)과 같은 여러 태스크를 위한 시스템과 모델을 훈련, 개발 및 평가할 고품질 데이터셋 (datasets)이 부족하기 때문입니다. 본 연구에서는 이탈리아의 저자원 언어 연속체인 롬바르드어 (Lombard)를 위해 사용 가능한 병렬 및 단일 언어 코퍼스 (corpora)에 대한 수동 감사를 수행합니다. 우리의 분석 결과, 웹 스크래핑 (web-scraped) 데이터의 풍부함에 대한 인식은 착각이며, 거대한 데이터셋들이 심각한 언어 오식별 (language misidentification), 불필요한 문구 (boilerplate text), 그리고 비언어적 노이즈 (non-linguistic noise)로 인해 고통받고 있음을 밝혀냈습니다. 나아가, 우리는 웹 스크래핑된 데이터셋, 큐레이션된 코퍼스 (curated corpora), 그리고 벤치마크 (benchmarks) 전반에 걸쳐 유효한 롬바르드어 부분의 철자법 구성 (orthographic composition)을 분석합니다. 우리의 연구 결과는 모든 코퍼스에 걸쳐 상충하는 철자 체계와 심각한 표현 편향 (representational bias)이 존재함을 보여줍니다. 즉, 고품질 데이터가 서부 롬바르드 (Western Lombard) 변이형에 심하게 치우쳐 있어, 동부 변이형은 소외되어 있습니다. 이는 단순히 양 중심의 스크래핑 (scraping)보다는 다양성을 인지하고 커뮤니티가 주도하는 데이터 큐레이션 (data curation)이 필요함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

"Chi nas dal soch el sent de legn" -- 롬바르드어(Lombard)를 위한 텍스트 코퍼스(Text Corpora)

요약

핵심 포인트

댓글