arXiv논문2026. 05. 29. 10:48

언어 모델 학습을 위한 데이터 필터링 방법론

요약

본 연구는 언어 모델 학습 시 데이터 품질을 높이기 위한 레이블 오류 탐지 방법론인 Confident Learning과 Dataset Cartography를 비교 분석합니다. 다양한 러시아어 텍스트 코퍼스를 대상으로 실험한 결과, 데이터셋의 규모와 노이즈 수준에 따라 각 방법론의 효과가 다름을 확인했습니다.

핵심 포인트

Confident Learning은 노이즈가 높은 소규모 데이터셋에서 F1-macro 성능을 크게 향상시킴
Dataset Cartography는 상대적으로 적은 데이터를 제거하는 보수적인 특성을 보임
데이터셋 특성에 따라 자동 레이블 오류 탐지 방법론의 유효성이 달라짐
두 방법론 모두 무작위 데이터 제거보다 모델 성능 유지에 효과적임

데이터 품질은 머신러닝 (Machine Learning) 모델의 효과성에 있어 결정적인 요소입니다. 널리 사용되는 벤치마크 (Benchmark)에서도 나타나는 레이블 오류 (Label errors)는 학습 데이터에 노이즈를 유입시키고 모델의 일반화 (Generalization) 능력을 저하시킵니다. 본 연구에서는 다양한 크기, 클래스 수, 도메인을 가진 세 가지 러시아어 텍스트 분류 코퍼스 (Corpora)를 대상으로 두 가지 자동 레이블 오류 탐지 방법인 컨피던트 러닝 (Confident Learning)과 데이터셋 카토그래피 (Dataset Cartography)를 비교 분석합니다. 사용된 코퍼스는 ru_emotion_e-culture (49,123개 예시, 감정 분류), RuCoLA (8,524개 예시, 언어적 수용성), 그리고 TERRa (2,337개 예시, 텍스트 함의 인식)입니다. 우리는 각 코퍼스에 대해 파인튜닝 (Fine-tuned)된 사전 학습된 rubert-base-cased 모델을 사용합니다. 필터링의 유효성을 검증하기 위해, 동일한 수의 예시를 무작위로 제거하는 대조 실험을 수행합니다. 결과에 따르면 두 방법의 효과는 데이터셋의 특성에 크게 의존합니다. 노이즈 수준이 낮은 대규모 코퍼스에서는 필터링이 성능을 향상시키지 못하는 반면, 노이즈가 높은 소규모 데이터셋에서는 컨피던트 러닝 (Confident Learning)이 상당한 F1-macro 향상을 달성합니다. 데이터셋 카토그래피 (Dataset Cartography)는 더 적은 수의 예시를 제거하며 더 보수적인 동작을 보여줍니다. 모든 코퍼스에 걸쳐 두 방법 모두에 의한 표적 제거는 무작위 제거보다 우수한 성능을 보였으며, 이는 해당 접근 방식들의 유효성을 확인시켜 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델 학습을 위한 데이터 필터링 방법론

요약

핵심 포인트

댓글