arXiv논문2026. 05. 20. 11:56

데이터 필터링에 대한 쓰라린 교훈

요약

본 연구는 대규모 모델 사전 학습 시 고품질 데이터만을 선별하는 필터링 작업의 효용성을 조사합니다. 실험 결과, 충분한 연산량(compute)이 뒷받침된다면 필터링을 하지 않는 것이 오히려 더 나은 성능을 보이며, 대규모 모델은 저품질 데이터로부터 오히려 이득을 얻을 수 있음을 시사합니다.

핵심 포인트

고품질 데이터 필터링이 필수적이라는 일반적인 믿음과 상반되는 결과 도출
충분한 연산량이 확보될 경우 '필터링 없음'이 가장 효과적인 데이터 전략이 될 수 있음
대규모 파라미터 모델은 저품질 및 방해 데이터를 견뎌낼 수 있는 능력을 갖춤
모델 규모가 커질수록 오히려 부실한 데이터로부터 이득을 얻는 현상 발견

Computer Science > Machine Learning

제목: 데이터 필터링에 대한 쓰라린 교훈 (A Bitter Lesson for Data Filtering)

PDF HTML 보기 (실험적) 초록: 우리는 높은 연산량(high compute)과 데이터 부족(data-scarce) 환경을 목표로 하는 새로운 스케일링 연구(scaling studies)를 통해 대규모 모델 사전 학습(pretraining)을 위한 데이터 필터링(data filtering)을 조사합니다. 고품질 정보만을 포함하도록 데이터를 필터링하는 것이 필수적이라는 일반적인 믿음에도 불구하고, 우리의 실험은 충분한 연산량(compute)이 있다면 가장 좋은 데이터 필터는 '필터가 없는 것'임을 시사합니다. 우리는 충분히 학습된 대규모 파라미터 모델(large parameter models)이 저품질 및 방해 데이터(distractor data)를 견뎌낼 뿐만 아니라, 사실상 명목상 "부실한" 데이터로부터 이득을 얻는다는 것을 발견했습니다.

서지 및 인용 도구

이 논사와 관련된 코드, 데이터 및 미디어

데모

arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 당사의 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs와 함께 활동하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있습니까? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기