arXiv논문2026. 05. 01. 18:25

반복성보다 다양성: 샘플 효율적인 독일어 언어 모델링을 위한 고신호 데이터 필터링

요약

본 연구는 독일어와 같은 고자원 비영어 언어의 대규모 웹 코퍼스 필터링 전략에 대한 트레이드오프를 분석했습니다. 그 결과, 단순히 데이터 양을 늘리는 것보다 계층적 품질 필터를 통해 얻은 고품질 데이터를 여러 에포크 동안 반복적으로 훈련하는 것이 단일 패스로 많은 양의 데이터를 사용하는 것보다 일관되게 우수한 성능을 보였습니다. 이는 비영어 LLM 개발 시 '다양성'보다는 '의미적 집중(semantic concentration)'을 통한 품질 필터링이 효율적인 핵심 전략임을 입증합니다.

핵심 포인트

비영어권 언어 모델링에서 데이터 양 극대화보다 고품질 데이터에 대한 반복 훈련(multi-epoch training)이 더 효과적이다.
독일어를 대상으로 한 실험 결과, 여러 에포크 동안 필터링된 코퍼스를 사용하는 것이 단일 패스 대규모 코퍼스 사용보다 일관되게 우수한 성능을 보였다.
본 연구는 비교 가능한 모델 대비 10배에서 최대 360배 적은 토큰으로도 최첨단(SOTA) 결과를 달성할 수 있음을 입증했다.
비영어 LLM의 효율적인 학습 경로를 위해서는 데이터의 '의미적 집중(semantic concentration)'을 통한 엄격한 품질 필터링이 필수적이다.

최근 연구들은 거대한 영어 웹 코퍼스를 고품질 부분집합으로 필터링하는 것이 훈련 효율성을 현저히 향상시킨다는 것을 보여주었습니다. 그러나 독일어, 프랑스어, 일본어와 같은 고자원 비영어 언어의 경우 공격적인 필터링은 전략적 딜레마를 야기합니다: 실무자들은 다양성을 우선시하여 가볍게 필터링된 대량의 웹 데이터 한 번에 훈련하는 것이, 아니면 고품질 코어를 엄격하게 필터링하여 이를 여러 에포크 (epochs) 동안 반복하는 것이 더 나은지 고려해야 합니다. 우리는 이 트레이드오프를 독일어에 대해 조사하기 위해 50 억 개의 웹 문서에 적용된 계층적 품질 필터를 구축하고, 필터링된 부분집합에 대한 다중 에포크 훈련과 다양한 코퍼스에 대한 단일 패스 (single-pass) 훈련을 비교했습니다. 여러 모델 스케일과 토큰 예산 (token budgets) 을 아우르는 실험 결과, 고품질 데이터를 반복하는 것이 더 크고 필터링이 덜 된 집합에 대한 단일 패스 훈련보다 일관되게 우수한 성능을 보였습니다. 특히 7 에포크 이후에도 성능 격차는 지속되었습니다. 우리의 발견은 비영어 LLM (Large Language Model) 의 경우 단순히 고유 데이터 양을 최대화하는 것보다 품질 필터링을 통한 의미적 집중 (semantic concentration) 이 언어 모델링의 효율성을 위한 더 실현 가능한 경로임을 시사합니다. 우리는 독일어 언어 모델 (Boldt) 과 정제된 평가 벤치마크를 연구 커뮤니티에 공개했습니다. 우리의 실험은 비교 가능한 모델들보다 10 배에서 360 배 적은 토큰으로 훈련되었음에도 불구하고 최첨단 (state-of-the-art) 결과를 달성함을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

반복성보다 다양성: 샘플 효율적인 독일어 언어 모델링을 위한 고신호 데이터 필터링

요약

핵심 포인트

댓글