CRAFT: 훈련 데이터의 적응형 필터링을 위한 클러스터링 회귀
요약
본 논문은 대규모 코퍼스에서 효율적이고 고품질의 미세 조정 데이터 하위 집합을 선택하는 방법인 CRAFT(Clustered Regression for Adaptive Filtering of Training data)를 제안합니다. CRAFT는 소스-타겟 분포를 분해하고, k-means 클러스터링을 통해 예산을 할당하여 소스 분포를 검증 분포에 맞추고, 각 클러스터 내에서 조건부 기대 거리를 최소화하는 훈련 쌍을 선택합니다. 영어-힌디어 번역 작업 평가 결과, CRAFT는 기존 방법론(TSDS, TAROT) 대비 높은 BLEU 점수와 월등히 빠른 속도를 보여 우수한 성능을 입증했습니다.
핵심 포인트
- CRAFT는 대규모 데이터셋에서 미세 조정에 필요한 고품질의 적응형 훈련 하위 집합을 선택하는 방법론이다.
- 이 방법은 k-means 클러스터링을 사용하여 소스 분포를 검증 분포에 비례적으로 할당하고, 조건부 기대 거리를 최소화하여 최적의 훈련 쌍을 선택한다.
- 영어-힌디어 번역 작업에서 CRAFT는 기존 최고 성능 모델 대비 높은 BLEU 점수를 달성했다.
- CRAFT는 데이터 선택 과정이 매우 빠르며(예: TAROT 대비 2.8배 속도 향상), 계산 효율성이 뛰어나다.
대규모 코퍼스가 수천만 개의 데이터 포인트로 확장됨에 따라, 이를 위한 미세 조정 (fine-tuning) 을 위해 소규모 고품질 하위 집합을 선택하는 것은 점점 더 중요해지고 있으며, 전체 미세 조정은 비용이 많이 들고 종종 불필요하게 됩니다. 우리는 시퀀스 투 시퀀스 모델 (sequence-to-sequence models) 의 훈련을 위한 벡터화 무관 (vectorization-agnostic) 선택 방법인 CRAFT(Clustered Regression for Adaptive Filtering of Training data) 를 제안합니다. CRAFT 는 결합된 소스 - 타겟 분포를 분해하고 두 단계의 선택을 수행합니다: (i) k-means 클러스터를 통한 예산의 비례 할당을 통해 검증 소스 분포를 일치시키고, (ii) 각 소스 클러스터 내에서 검증 타겟 분포에서 유도된 조건부 기대 거리 (conditional expected distance) 를 최소화하는 타겔 임베딩을 갖는 훈련 쌍을 선택합니다. 우리는 비례 클러스터 할당이 선택된 분포와 검증 분포 사이의 연속적인 KL 발산을 제한하며, 잔차는 클러스터 직경에 의해 제어됨을 증명합니다. 우리는 3 천만 개의 NLLB 문장 쌍에서 훈련 데이터를 선택하여 mBART 를 LoRA 로 미세 조정하는 영어 - 힌디어 번역 작업에서 CRAFT 를 평가했습니다. CRAFT 는 동일한 후보 풀 (candidate pool) 과 인코더를 사용하여 TSDS(41.21) 보다 2.13 점 높은 43.34 BLEU 를 달성하여 TAROT 보다 우월한 성능을 보였습니다. TF-IDF 벡터화를 사용할 경우, 전체 파이프라인은 CPU 에서 1 분 미만으로 완료됩니다. TAROT 는 45.61 BLEU 를 달성하지만, CRAFT 는 TAROT(75.6 초) 대비 선택 작업을 26.86 초로 완료하여 2.8 배의 속도 향상을 이룹니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기