다국어 LLM 데이터 필터링: 언어 간 품질 전이 전략
요약
대규모 언어 모델(LLMs)의 발전과 함께 데이터 큐레이션은 단순히 양을 늘리는 것에서 질적 필터링으로 초점이 이동하고 있습니다. 하지만 많은 저자원 언어는 자체적으로 고품질 데이터를 확보하기 어렵습니다. 본 연구는 임베딩 공간 내 품질 마커가 언어 간 일관성을 가질 수 있다는 가정 하에, 고자원 언어가 저자원 언어의 데이터 필터링을 지원할 수 있는 방법을 탐구합니다. 다양한 필터링 전략(예: 교차 언어 전이, Q3 샘플링)을 평가한 결과, 대규모 다국어 풀링 방식이 단일 언어 기준보다 높은 성능을 보였습니다. 특히 고자원 언어의
핵심 포인트
- 대용량 LLM 학습에서 데이터 필터링은 양적 증가보다 질적 최적화가 중요합니다.
- 임베딩 공간의 품질 마커는 언어 간 일관성을 가질 수 있어, 고자원 언어가 저자원 언어 학습을 지원할 수 있습니다.
- 다국어 풀링 방식이 단일 언어 기준 대비 전반적인 정확도와 랭크 안정성 면에서 우수한 성능을 보였습니다.
- 최적의 결과를 얻기 위해서는 단순히 데이터 규모를 늘리는 것 외에, Q3 샘플링이나 리텐션 레이트 조정 같은 정교한 필터링 기법이 필요합니다.
대규모 언어 모델(LLMs)이 커지면서, 데이터 큐레이션의 초점은 단순한 데이터 양 극대화에서 신호 대 노이즈 비율을 최적화하는 질적 필터링으로 바뀌고 있습니다. 하지만 많은 저자원 언어는 자체적으로 충분한 고품질 데이터를 확보하기 어렵다는 문제가 있습니다.
본 연구는 임베딩 공간에 존재하는 품질 마커가 여러 언어에 걸쳐 일관성을 보일 수 있다는 가설을 세웠습니다. 이를 통해 고자원 언어가 저자원 언어의 데이터 필터링 과정에 도움을 줄 수 있도록 하는 방법을 탐구했습니다.
다양한 필터링 전략, 예를 들어 교차 언어 전이(cross-lingual transfer)나 3분위수 샘플링 (Q3 sampling), 그리고 리텐션 레이트 조정 등을 평가했습니다. 그 결과, 대규모 다국어 풀링 방식은 단일 언어 기준보다 랭크 안정성과 전체 정확도 모두에서 뛰어난 성능을 입증했습니다.
특히 이 방법은 고자원 언어(예: 프랑스어)의 경우 집계된 정규화 정확도를 1.2% 향상시키는 등 명확한 이점을 제공했으며, 저자원 언어의 경우 단일 언어 기준과 동등하거나 그 이상의 성능을 달성했습니다.
다만, 연구진은 단순히 데이터 규모를 키우는 것만으로는 안정적인 성능이 보장되지 않으며, 고자원 언어의 경우 Q3 샘플링이나 리텐션 레이트 조정 같은 추가적인 정교화 과정이 필수적임을 강조했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기