arXiv논문2026. 05. 29. 12:54

LLM 학습 성능 향상을 위한 데이터 구성의 신비 해제

요약

LLM 학습 효율을 높이기 위해 데이터 선택을 넘어 전략적 데이터 구성(Data Organization)의 중요성을 탐구한 연구입니다. 사전 계산된 점수를 재사용하여 계산 오버헤드를 최소화하면서, 네 가지 핵심 가이드라인을 통해 최적의 데이터 순서 지정 방법을 제안합니다.

핵심 포인트

데이터 구성 최적화를 위한 4가지 핵심 가이드라인 식별
STR 및 SAW라는 새로운 데이터 순서 지정 방법론 제안
사전 학습 및 SFT 단계 모두에서 학습 안정성과 성능 향상 검증
추가 계산 비용 없이 기존 샘플 점수를 재사용하는 효율적 접근

대규모 언어 모델 (LLMs)은 다양한 분야에 혁신을 가져왔으나, 모델의 학습 효율성은 효과적인 데이터 큐레이션 (Data Curation)에 크게 의존합니다. 데이터 선택 (Data Selection)에 대해서는 폭넓게 연구되어 왔지만, 학습 성능 향상을 위한 전략적 데이터 구성 (Data Organization)은 여전히 미개척 분야로 남아 있으며, 특히 현재의 LLMs는 종종 단 하나 또는 몇 개의 에포크 (Epochs) 동안만 학습된다는 점에서 더욱 그러합니다. 본 논문은 데이터 효율성을 위해 원래 생성되었던 사전 계산된 샘플 수준 점수 (Sample-level Scores)를 재사용함으로써, 추가적인 계산 오버헤드 (Computational Overhead)를 최소화하면서 데이터 구성이 LLM 학습에 미치는 영향을 체계적으로 탐구합니다. 우리는 데이터 구성을 최적화하기 위한 네 가지 핵심 가이드라인을 식별하고 공식화합니다: 경계 선명화 (Boundary Sharpening), 순환 스케줄링 (Cyclic Scheduling), 커리큘럼 연속성 (Curriculum Continuity), 그리고 지역적 다양성 (Local Diversity)입니다. 이러한 가이드라인을 바탕으로, 우리는 STR 및 SAW라고 명명된 두 가지 새로운 데이터 순서 지정 (Data Ordering) 방법을 소개합니다. 사전 학습 (Pre-training) 및 SFT (Supervised Fine-Tuning) 단계를 모두 포함하여, 다양한 모델 규모와 데이터 크기에 걸친 광범위한 실험을 통해 우리가 요약한 가이드라인의 효과를 검증합니다. 또한, 제안된 데이터 순서 지정 방법이 LLM 학습의 안정성과 성능을 향상시키는 데 있어 견고함을 보여줍니다. Github Link: https://github.com/microsoft/data-efficacy/

AI 자동 생성 콘텐츠

원문 바로가기

LLM 학습 성능 향상을 위한 데이터 구성의 신비 해제

요약

핵심 포인트

댓글