arXiv논문2026. 06. 19. 10:50

IHUBERT: 페르시아어 리소스를 위한 벡터 기반 의미론적 중복 제거 및 도메인 균형 사전 학습

요약

IHUBERT는 벡터 기반 의미론적 중복 제거 기술을 적용하여 정제된 페르시아어 코퍼스로 학습된 새로운 사전 학습 언어 모델(PLM)입니다. RoBERTa-base 구조를 기반으로 하며, 다양한 NLU 벤치마크에서 뛰어난 성능을 입증했습니다.

핵심 포인트

벡터 데이터베이스를 활용한 다단계 의미론적 중복 제거 파이프라인 적용
페르시아어 특성을 반영한 139k 어휘 규모의 BPE 토크나이저 설계
추출형 질의응답(QA) 및 주제 분류 등 7개 벤치마크에서 우수한 성능 달성
BPE가 WordPiece 대비 서브워드 파편화가 낮음을 절제 연구로 증명

페르시아어 사전 학습 언어 모델 (PLMs)은 여전히 대규모의 고품질 사전 학습 코퍼스 (pretraining corpora) 부족과 표준 분류 및 개체명 인식 (NER) 작업을 넘어선 불충분한 평가로 인해 한계가 있습니다. 우리는 RoBERTa-base 인코더 (125M 파라미터)를 사용하여 Sepahr-Danesh 컬렉션의 정제된 하위 집합(약 7-8B 토큰, 45 GB)으로 처음부터 학습시킨 단일 언어 페르시아어 PLM인 IHUBERT를 제시합니다. 코퍼스 품질을 개선하고 중복을 줄이기 위해, 우리는 정규화 (normalization), 완전 및 유사 중복 제거 (exact and near-duplicate removal), 익명화 (anonymization), 그리고 도메인 및 레지스터 (registers) 전반의 분포 균형 제어를 위한 벡터 데이터베이스 기반의 의미론적 중복 제거 (semantic deduplication)를 포함하는 다단계 전처리 파이프라인을 채택합니다. 또한 페르시아어의 형태론 (morphology) 및 철자 변이 (orthographic variation)를 더 잘 포착하기 위해 전체 사전 학습 코퍼스에 대해 139k 어휘를 가진 BPE 토크나이저 (tokenizer)를 학습시켰습니다. IHUBERT는 NER, 감성 분석 (sentiment analysis), 주제 분류 (topic classification), 자연어 추론 (NLI), 추출형 질의응답 (extractive question answering), 관계 추출 (relation extraction)을 다루는 7개의 페르시아어 NLU 벤치마크에서 작업 표준 메트릭 (entity-level F1, Macro-F1, EM/F1)을 사용하여 평가되었습니다. IHUBERT는 추출형 QA에서 가장 강력한 성능 향상을 보였으며, PQuAD (F1 88.3542)와 ParsiNLU-RC (F1 49.0987) 모두에서 1위를 차지했고, FarsTail (Macro-F1 0.8350)에서 최고의 결과를 달성했습니다. NER 및 주제 분류에서는 경쟁력 있는 수준을 유지하며 (예: ParsTwiNER에서 0.8308 F1, DigiMag에서 0.7953 Macro-F1), 관계 추출은 여전히 주요 과제로 남아 있습니다 (PERLEX에서 0.6684 Macro-F1). IHUBERT 사전 학습 코퍼스에 대한 통제된 토크나이저 절제 연구 (ablation study) 결과, BPE가 동일한 어휘 크기에서 WordPiece보다 서브워드 파편화 (subword fragmentation)가 약간 더 낮게 나타나 우리의 토큰화 설계를 뒷받침합니다. 종합적으로, IHUBERT는 의미론적으로 정제된 대규모 사전 학습과 분류 및 이해 중심 작업 모두에 걸친 광범위한 평가를 통해 페르시아어 언어 모델링을 발전시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

IHUBERT: 페르시아어 리소스를 위한 벡터 기반 의미론적 중복 제거 및 도메인 균형 사전 학습

요약

핵심 포인트

댓글