arXiv논문2026. 04. 27. 18:59

CRAFT: 훈련 데이터의 적응형 필터링을 위한 클러스터링 회귀

요약

본 논문은 대규모 코퍼스에서 효율적이고 고품질의 미세 조정 데이터 하위 집합을 선택하는 방법인 CRAFT(Clustered Regression for Adaptive Filtering of Training data)를 제안합니다. CRAFT는 소스-타겟 분포를 분해하고, k-means 클러스터링을 통해 예산을 할당하여 소스 분포를 검증 분포에 맞추고, 각 클러스터 내에서 조건부 기대 거리를 최소화하는 훈련 쌍을 선택합니다. 영어-힌디어 번역 작업 평가 결과, CRAFT는 기존 방법론(TSDS, TAROT) 대비 높은 BLEU 점수와 월등히 빠른 속도를 보여 우수한 성능을 입증했습니다.

핵심 포인트

CRAFT는 대규모 데이터셋에서 미세 조정에 필요한 고품질의 적응형 훈련 하위 집합을 선택하는 방법론이다.
이 방법은 k-means 클러스터링을 사용하여 소스 분포를 검증 분포에 비례적으로 할당하고, 조건부 기대 거리를 최소화하여 최적의 훈련 쌍을 선택한다.
영어-힌디어 번역 작업에서 CRAFT는 기존 최고 성능 모델 대비 높은 BLEU 점수를 달성했다.
CRAFT는 데이터 선택 과정이 매우 빠르며(예: TAROT 대비 2.8배 속도 향상), 계산 효율성이 뛰어나다.

대규모 코퍼스가 수천만 개의 데이터 포인트로 확장됨에 따라, 이를 위한 미세 조정 (fine-tuning) 을 위해 소규모 고품질 하위 집합을 선택하는 것은 점점 더 중요해지고 있으며, 전체 미세 조정은 비용이 많이 들고 종종 불필요하게 됩니다. 우리는 시퀀스 투 시퀀스 모델 (sequence-to-sequence models) 의 훈련을 위한 벡터화 무관 (vectorization-agnostic) 선택 방법인 CRAFT(Clustered Regression for Adaptive Filtering of Training data) 를 제안합니다. CRAFT 는 결합된 소스 - 타겟 분포를 분해하고 두 단계의 선택을 수행합니다: (i) k-means 클러스터를 통한 예산의 비례 할당을 통해 검증 소스 분포를 일치시키고, (ii) 각 소스 클러스터 내에서 검증 타겟 분포에서 유도된 조건부 기대 거리 (conditional expected distance) 를 최소화하는 타겔 임베딩을 갖는 훈련 쌍을 선택합니다. 우리는 비례 클러스터 할당이 선택된 분포와 검증 분포 사이의 연속적인 KL 발산을 제한하며, 잔차는 클러스터 직경에 의해 제어됨을 증명합니다. 우리는 3 천만 개의 NLLB 문장 쌍에서 훈련 데이터를 선택하여 mBART 를 LoRA 로 미세 조정하는 영어 - 힌디어 번역 작업에서 CRAFT 를 평가했습니다. CRAFT 는 동일한 후보 풀 (candidate pool) 과 인코더를 사용하여 TSDS(41.21) 보다 2.13 점 높은 43.34 BLEU 를 달성하여 TAROT 보다 우월한 성능을 보였습니다. TF-IDF 벡터화를 사용할 경우, 전체 파이프라인은 CPU 에서 1 분 미만으로 완료됩니다. TAROT 는 45.61 BLEU 를 달성하지만, CRAFT 는 TAROT(75.6 초) 대비 선택 작업을 26.86 초로 완료하여 2.8 배의 속도 향상을 이룹니다.

AI 자동 생성 콘텐츠

원문 바로가기

CRAFT: 훈련 데이터의 적응형 필터링을 위한 클러스터링 회귀

요약

핵심 포인트

댓글