
강력한 LLM을 만드는 데이터 배합 기술: 업계별·단계별 혼합 비율 고찰
요약
LLM의 성능을 결정짓는 핵심 요소인 데이터 혼합 비율(Data Mixture)과 학습 단계별 전략을 분석합니다. 데이터의 종류를 5개 레이어로 분류하고, 사전 학습부터 SFT, DPO에 이르기까지 최적의 성능을 위한 데이터 배분 방식을 고찰합니다.
핵심 포인트
- 데이터 혼합 비율은 모델 아키텍처만큼 성능에 결정적인 영향을 미침
- 데이터의 종류(무엇을)와 학습 단계(어떻게)를 구분하여 전략 수립 필요
- 품질과 양의 트레이드오프 관계를 고려한 고품질 데이터 큐레이션 중요
- Phi-2 사례처럼 고품질 데이터 집중이 소형 모델 성능 극대화의 핵심
강력한 LLM을 만드는 데이터 배합 기술: 업계별·단계별 혼합 비율 고찰
LLM의 성능을 좌우하는 요인 중에서, **아키텍처(Architecture)나 학습률(Learning Rate)만큼 중요한 것이 데이터 혼합 비율(Data Mixture)**입니다.
어떤 데이터를 얼마나 섞느냐에 따라, 동일한 모델 크기와 동일한 계산 비용(Compute Cost)에서도 최종적인 성능이 크게 달라집니다. 본 기사에서는 사전 학습(Pre-training) 데이터의 종류부터 시작하여, 업계별 최적 배분, 나아가 CPT·SFT·GRPO·DPO라는 각 학습 단계(Phase)별 배분 전략까지 일관되게 정리합니다.
1. 중요한 전제: 「데이터의 종류」와 「학습 단계」는 별개의 축
먼저 혼동하기 쉬운 점을 정리하겠습니다.
| 축 | 내용 | 예시 |
|---|---|---|
| 데이터의 종류 | 무엇을 학습시킬 것인가 | Web 문서, 논문, 코드, 합성 데이터(Synthetic Data)… |
| 학습 단계 | 어떻게 학습시킬 것인가 | CPT, SFT, GRPO, DPO… |
이 두 가지는 독립된 축입니다. "SFT에 어떤 데이터를 사용할 것인가"와 같이 조합됩니다. 본 기사에서는 먼저 데이터의 종류를 정리하고, 그 후 단계별 전략, 마지막으로 업계 × 데이터 종류의 매트릭스로 진행하겠습니다.
2. 데이터의 종류: 5층 구조로 정리하기
LLM의 학습 데이터는 품질·가공도 관점에서 **5개의 레이어(Layer)**로 정리할 수 있습니다.
Layer 5: 합성 데이터 (Synthetic Data) ← 모델이 생성. 품질에 따라 독이 될 수도 약이 될 수도 있음
Layer 4: 태스크 구조화 (Task Structuring) ← 지시(Instruction)·Q&A·CoT 형식으로 정제 완료
Layer 3: 구조화 데이터 (Structured Data) ← Wikipedia·논문·서적 등 고품질
...
품질과 양은 트레이드오프(Trade-off) 관계입니다.
저품질·대량 ─────────────────────── 고품질·소량
Raw Web ─────────────────────── 교과서·논문·수학
↑ 필터링(Filtering)으로 품질 향상
Phi-2 (Microsoft)는 "교과서 품질" 데이터에 집중함으로써, 훨씬 더 큰 모델에 필적하는 성능을 소형 모델에서 실현했습니다. 양보다 질이라는 방향성의 대표적인 사례입니다.
Layer 1: 생데이터 (Raw)
필터링 전의 가공되지 않은 데이터. 그대로 학습에 사용하는 경우는 거의 없으며, Layer 2를 위한 원재료로 사용합니다.
| 데이터 종류 | 설명 | 주요 소스 |
|---|---|---|
| Common Crawl | 웹 전체를 정기적으로 크롤링한 거대 데이터셋. 노이즈가 많지만 양은 압도적 | commoncrawl.org |
| GitHub Raw | 필터링 전의 GitHub 코드. 라이선스·품질 혼재 | GitHub |
Layer 2: 큐레이션된 데이터 (Curated Data)
Layer 1을 품질 필터링·중복 제거·유해 콘텐츠 제거한 상태. 현대 LLM 사전 학습의 주력입니다.
| 데이터 종류 | 설명 | 특징 |
|---|---|---|
| FineWeb / RefinedWeb | Common Crawl을 고품질로 필터링한 Web 문서 | Llama 등 많은 모델이 채택 |
| The Stack (코드) | BigCode에 의한 큐레이션된 다국어 코드 데이터셋 | 350개 이상의 언어를 커버 |
| OpenWebMath | 웹상의 수식·수학 콘텐츠를 추출·정제 | 수학 능력 향상에 유효 |
Layer 3: 구조화 데이터 (Structured Data)
인간이 작성·편집한 고품질 데이터. 양은 적지만 정보 밀도가 높으며, 소량으로도 큰 효과를 발휘합니다.
| 데이터 종류 | 설명 | 특징 |
|---|---|---|
| Wikipedia / Wiki 계열 | 백과사전·Wiki 형식의 구조화된 문서 | 지식의 정확성과 망라성 |
| 학술 논문 (arXiv·PubMed 등) | 심사(Peer-review)를 거친 과학·의학 논문 | 전문 지식·논리 구조가 고품질 |
| 서적·교과서 | Project Gutenberg 등의 서적 데이터 | 장문 이해·문체 다양성 |
| 도메인 전문 문서 | 업계 고유의 매뉴얼·사양서·리포트 등 | 업계 특화 모델의 핵심 |
| 법령·판례 문서 | 법률·판례·규제 문서 | 법률 계열 모델의 필수 소재 |
Layer 4: 태스크 구조화 데이터 (Task-Structured Data)
"입력(Input) → 출력(Output)" 형식으로 정제된 데이터. SFT의 주력 소재이며, 모델에게 "어떻게 답할 것인가"를 가르칩니다.
| 데이터 종류 | 설명 | 특징 |
|---|---|---|
| Q&A·대화 로그 | 질문과 답변 쌍, 실제 채팅 로그 | CS 로그나 ShareGPT 등이 대표 |
| Instruction Following | 지시문과 기대하는 출력의 쌍 | FLAN, Alpaca 등이 유명 |
| CoT 추론 데이터 | 사고 단계가 포함된 해법 데이터 (Chain-of-Thought) | 추론 능력의 핵심. 수학·논리에서 특히 중요 |
| 코드+테스트 쌍 | 코드와 해당 테스트 케이스의 세트 | 정오답의 자동 판정이 가능하며 GRPO와 궁합이 좋음 |
Layer 5: 합성 데이터 (Synthetic)
강력한 모델이 생성한 데이터. 적절히 사용하면 다른 데이터로는 얻을 수 없는 효과를 발휘하지만, 품질 관리를 소홀히 하면 환각 (Hallucination)을 증폭시킬 위험도 있습니다.
| 데이터 종류 | 설명 | 주의사항 |
|---|---|---|
| Distillation (증류) | GPT-4 등 강력한 모델의 출력을 교사 데이터 (Teacher Data)로 사용 | 라이선스·이용 약관 확인 필요 |
| Self-play / Self-instruct | 모델이 스스로 문제를 만들고 풀이. 정답 검증이 필요 | 코드·수학 등 검증 가능한 태스크에서 특히 유효 |
| Persona-driven 합성 | 캐릭터 설정을 부여하여 다양한 대화를 생성 | 게임·CS 등에서 매우 유효 |
| Rejection Sampling | 여러 개를 생성하여 정답만을 남기는 품질 필터링 기법 | GRPO의 전 단계로 사용하는 경우가 많음 |
3. 산업군 × 데이터 종류 히트맵
18가지 데이터 타입이 각 산업군에서 어느 정도의 비율로 필요한지를 나타냅니다. 수치는 해당 산업군의 전체 학습 데이터에서 차지하는 비율(%)의 가이드라인입니다.
범례: 진한 파랑 = 높은 비율, 연한 파랑 = 낮은 비율, 공백 = 0% 또는 거의 불필요
Layer 1 (Raw Data)
| 산업군 | Common Crawl | GitHub Raw |
|---|---|---|
| 💻 프로그래밍 | 2% | 5% |
| ... |
Layer 2 (Curated Data)
| 산업군 | FineWeb | The Stack | OpenWebMath |
|---|---|---|---|
| 💻 프로그래밍 | 5% | 20% | 3% |
| 🔢 수학·논리 | 3% | 3% | 18% |
| 🏦 금융 | 8% | — | 5% |
| ⚖️ 법률 | 5% | — | — |
| ... |
Layer 3 (Structured Data)
| 산업군 | Wikipedia | 학술 논문 | 서적 | 도메인 전문 문서 | 법령·판례 |
|---|---|---|---|---|---|
| 💻 프로그래밍 | 2% | 3% | 2% | 5% | — |
| 🔢 수학·논리 | 3% | 8% | 5% | 2% | — |
| 🏦 금융 | 3% | 8% | 5% | 25% | 15% |
| ⚖️ 법률 | 3% | 10% | 5% | 20% | 28% |
| 🏥 의료 | 3% | 25% | 8% | 20% | 5% |
| 🎮 게임 | 8% | — | 15% | 5% | — |
| 🎓 교육 | 5% | 8% | 18% | 5% | — |
| 🛒 CS·지원 | 3% | — | 3% | 15% | 3% |
| 🏭 제조 | 3% | 5% | 5% | 28% | 3% |
Layer 4 (Task-Structured Data)
| 산업군 | Q&A·대화 로그 | Instruction Following | CoT 추론 | 코드+테스트 |
|---|---|---|---|---|
| 💻 프로그래밍 | 5% | 8% | 8% | 18% |
| 🔢 수학·논리 | 3% | 5% | 20% | 5% |
| 🏦 금융 | 8% | 8% | 5% | — |
| ⚖️ 법률 | 8% | 8% | 6% | — |
| 🏥 의료 | 8% | 8% | 5% | — |
| 🎮 게임 | 20% | 5% | 2% | — |
| 🎓 교육 | 12% | 10% | 15% | 3% |
| 🛒 CS·지원 | 28% | 15% | 3% | — |
| 🏭 제조 | 12% | 10% | 5% | 3% |
Layer 5 (Synthetic Data)
| 산업군 | Distillation | Self-play | Persona-driven | Rejection Sampling |
|---|---|---|---|---|
| 💻 프로그래밍 | 8% | 4% | — | 2% |
| 🔢 수학·논리 | 8% | 8% | — | 7% |
| 🏦 금융 | 3% | 2% | — | 2% |
| ⚖️ 법률 | 2% | 1% | — | 2% |
| ... | 3% | 15% | 4% | |
| 🎓 교육 | 5% | 3% | 2% | 3% |
| 🛒 CS·고객지원 | 8% | 2% | 8% | 3% |
| 🏭 제조 | 5% | 2% | — | 3% |
히트맵에서 읽을 수 있는 3가지 포인트
① GRPO와 궁합이 좋은 것은 코드+테스트 쌍과 CoT 추론 데이터
프로그래밍과 수학에서 돌출적으로 높은 비율을 보입니다. 정오답의 자동 검증이 가능하기 때문에, 이 두 종류는 GRPO의 보상 함수 (Reward Function)로 직접 활용할 수 있습니다.
② Persona-driven 합성 데이터는 게임과 CS만 높음
타 산업군에서는 거의 0%이지만, 게임(15%)과 CS(8%)만 돌출되어 있습니다. "캐릭터 고유의 말투"나 "다양한 고객 유형에 대한 대응"은 합성 데이터 (Synthetic Data)로 다양성을 보충하는 것이 가장 효율적입니다.
③ 합성 데이터의 안전한 상한선은 산업군에 따라 크게 다름
수학·게임에서는 합성 데이터 합계가 20~35%에 달하지만, 의료(9%)·법률(5%)은 의도적으로 낮게 유지하고 있습니다. 정확성이 생명인 산업군에서는 합성 데이터의 환각 (Hallucination) 증폭 리스크가 치명적이기 때문입니다.
4. 데이터 혼합 비율 최적화에 관한 주요 논문
"혼합 비율을 어떻게 결정할 것인가"는 활발한 연구 영역입니다.
DoReMi (NeurIPS 2023)
논문: DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining (Google DeepMind × Stanford, arxiv: 2305.10429)
280M 규모의 작은 프록시 모델 (Proxy Model)을 Group DRO로 학습하여, 다운스트림 태스크 (Downstream Task)의 지식 없이 도메인 가중치를 최적화하는 방법입니다. 얻어진 혼합 비율로 8B 규모의 큰 모델을 학습하면, Few-shot 정확도가 6.5% 향상되었으며, 동일한 정확도를 2.6배 적은 스텝 (Step)으로 달성할 수 있었습니다.
핵심 아이디어: 작은 모델로 비율을 탐색 → 큰 모델에 전용
Data Mixing Laws (ICLR 2025)
스케일링 법칙 (Scaling Law)이 모델 크기나 스텝 수에 대해 손실 (Loss)을 예측할 수 있다면, 혼합 비율에 대해서도 동일하게 예측할 수 있을 것이라는 발상에서 출발한 논문입니다. 실제 학습 전에 미지의 혼합 비율에 대한 성능을 추정하는 함수 피팅 (Function Fit)이 가능하다는 것을 입증하였으며, 스케일링 법칙의 중첩 이용을 통해 대규모 모델로의 외삽 (Extrapolation)도 실현했습니다.
RegMix (ICLR 2025)
데이터 혼합 최적화를 회귀 문제 (Regression Problem)로 정식화한 방법입니다. 다양한 혼합 비율로 작은 모델을 다수 학습하여, 미지의 혼합 비율에 대한 성능을 예측합니다. 7B 모델·100B 토큰 실험에서 DoReMi에 필적하거나 능가하는 성능을 계산 비용 10%로 달성했습니다.
실제 모델의 혼합 비율 (공개 정보 기반)
| 모델 | Web | 코드 | 서적 | 학술 |
|---|---|---|---|---|
| GPT-3 | ~60% | ~8% | ~16% | ~3% |
| ... | ||||
| Llama-3는 "신규 데이터셋에 30%, 나머지 70%를 기본 혼합에"라는 단순한 휴리스틱 (Heuristic)을 채택하고 있습니다. |
5. 산업군별 데이터 혼합 비율 가이드 (대분류)
산업군에 따라 "무엇을 잘하기를 원하는가"가 다르기 때문에, 최적의 데이터 배합은 크게 달라집니다.
축의 정리
① 전문 지식의 깊이 ←→ 범용성의 넓이
② 생성 태스크 중심 ←→ 이해·분류 태스크 중심
BtoB 산업계
🏦 금융·은행
| 데이터 종류 | 비율 | 이유 |
|---|---|---|
| 금융 리포트·IR | 30% | 도메인 어휘 습득 |
| ... | ||
| 수치 정확성·컴플라이언스 (Compliance)가 최우선입니다. 합성 데이터는 환각 리스크가 높아 주의가 필요합니다. 사내 규제 데이터는 외부 공유가 불가능한 경우가 많아, 데이터 수집 자체가 병목 (Bottleneck)이 되기 쉽습니다. |
⚖️ 법률·리걸 (Legal)
| 데이터 종류 | 비율 | 이유 |
|---|---|---|
| 판례·법령 문서 | 35% | 법률 어휘와 논리 구조 |
| ... | ... | ... |
| 인용·참조의 정확성이 생명입니다. 판례 데이터베이스는 라이선스 비용이 높다는 점이 현실적인 장벽입니다. |
의료·헬스케어
| 데이터 종류 | 비율 | 이유 |
|---|---|---|
| 의학 논문 (PubMed 등) | 35% | 에비던스 (Evidence)의 기반 |
| ... | ... | ... |
| 안전성·근거에 기반한 답변이 필수적입니다. HIPAA 등의 규제로 인해 데이터 취급에 제약이 있으며, 임상 데이터의 익명화 비용이 막대합니다. |
제조·공장 / 🚆 철도·인프라
기술 매뉴얼·유지보수 기록·안전 규칙을 주축으로 하며, 일반 웹 (Web) 데이터를 20% 정도 유지하는 것이 기본입니다. 사내의 장애 로그나 유지보수 기록은 양은 적지만, 다른 곳에서는 대체할 수 없는 고가치 데이터입니다.
BtoC 소비자계
🎮 게임·엔터테인먼트
| 데이터 종류 | 비율 | 이유 |
|---|---|---|
| 소설·각본·노벨 | 30% | 문체·서사 구조 |
| ... | ... | ... |
| 세계관의 일관성·캐릭터 고유의 말투가 중요하며, 정확성보다 다양성을 우선시하는 특이한 영역입니다. |
🎓 교육·EdTech / 💳 EC·소매
교육은 교과서·문제집·Q&A를 중심으로 하여, '단계적인 설명 능력' 습득을 우선합니다. EC는 고객 지원 (Customer Support) 로그가 보물창고이며, 실제 CS 로그가 그대로 SFT의 교사 데이터 (Teacher Data)가 됩니다.
전 산업 공통 중요 규칙
6. 학습 단계별 배분 전략
데이터를 '무엇을 섞을 것인가'뿐만 아니라, **'어느 단계에 예산을 집중할 것인가'**도 마찬가지로 중요합니다.
학습 파이프라인은 일반적으로 다음과 같은 흐름을 가집니다.
사전 학습 (PT) → CPT → SFT → GRPO → DPO
↑ ↑
도메인 지식 주입 태스크 형식 정착
CPT (지속 사전 학습)
배합 규칙: 도메인 85—90% + 일반 10—15%
CMR 연구에 따르면: 일반 데이터를 단 10%만 섞어도 망각 (Forgetting)의 80%를 방지할 수 있습니다. 완전히 삭제하면 범용 언어 능력이 붕괴됩니다.
주의점은 세 가지입니다.
- 도메인 데이터의 품질이 전부입니다. 노이즈가 많은 데이터를 대량 투입하는 것보다 소량의 고품질 데이터가 효과적입니다.
- 에포크 (Epoch) 수는 1—2가 기준입니다. 너무 반복하면 암기 (Memorization) 현상이 발생합니다.
- 필터링 (Filtering)에 예산을 할애하는 것이 매우 중요합니다.
SFT (지도 미세 조정)
배합 규칙: 우선 SFT에 예산을 집중. 수렴이 빠른 태스크는 줄이고, 느린 태스크는 늘린다
태스크별 수렴 속도에 따라 배분을 동적으로 결정하는 것이 중요합니다.
- 고수렴 태스크 (축소 대상): 요약·분류 등 단순 태스크. 소량으로도 충분히 수렴합니다.
- 저수렴 태스크 (증량 대상): 복잡한 추론·코드 생성·다단계 대화
GRPO (그룹 상대 정책 최적화)
배합 규칙: Pass rate 20—80%인 문제만 선별한다
이것은 GRPO에서 가장 중요한 지견입니다.
pass rate 0% (전원 오답) → 학습 시그널 없음, 제외
pass rate 20—80% → ✅ 유효한 학습 데이터
pass rate 100% (전원 정답) → 학습 시그널 없음, 제외
동일한 문제에 대해 그룹 내에서 여러 번 샘플링하여 (G=8—16이 일반적), 상대적인 좋고 나쁨으로 보상 (Reward)을 계산합니다.
GRPO가 유효한 도메인은 정오답의 자동 판정이 가능한 영역에 한정됩니다.
- 코드 (테스트 실행으로 판정)
- 수학·논리 추론 (정답 대조로 판정)
법률·의료·대화계는 정답이 모호하기 때문에 GRPO 적용이 어렵고, 사용하더라도 제한적입니다.
DPO (직접 선호 최적화)
배합 규칙: 모델이 커진 후에 효과가 나타난다. 소규모 모델은 SFT 우선
- 7B 이상에서 진가를 발휘합니다. 소형 모델은 참조 분포 (Reference Distribution)가 약해 DPO의 대조 학습 (Contrastive Learning)이 기능하기 어렵습니다. Chosen/Rejected의 품질 차이가 큰 쌍(Pair)일수록 효과적입니다.
- 반드시 SFT 이후에 적용합니다 (SFT로 형식을 다지고, DPO로 품질을 연마하는 2단계 전략).
7. 도메인 × 단계 매트릭스
도메인별로 각 단계에 대한 권장 예산 배분을 정리합니다. ★는 중점 단계입니다.
| 도메인 | CPT | SFT | GRPO | DPO | 중점 |
|---|---|---|---|---|
| 💻 프로그래밍 | 20% | 30% | 40% | 10% | GRPO ★ |
| 🔢 수학·논리 추론 | 25% | 25% | 45% | 5% | GRPO ★ |
| 🏦 금융·파이낸스 | 40% | 35% | 10% | 15% | CPT ★ |
| ⚖️ 법률·리걸 | 45% | 30% | 5% | 20% | CPT ★ |
| 🏥 의료·헬스케어 | 45% | 30% | 10% | 15% | CPT ★ |
| 🎮 게임·캐릭터 AI | 20% | 40% | 15% | 25% | SFT ★ |
| 🎓 교육·EdTech | 25% | 40% | 25% | 10% | SFT ★ |
| 🛒 고객 지원 (CS) | 25% | 45% | 5% | 25% | SFT ★ |
| 🏭 제조·기술 문서 | 40% | 35% | 15% | 10% | CPT ★ |
매트릭스에서 읽을 수 있는 원칙
GRPO가 ★가 되는 도메인은 2개뿐
프로그래밍과 수학·논리 추론뿐입니다. 이는 "정답을 자동으로 판정할 수 있는가"라는 단 하나의 기준으로 결정됩니다.
CPT가 ★가 되는 곳은 지식 밀도가 높은 영역
금융, 법률, 의료, 제조는 "전문 지식의 깊이"가 곧 경쟁 우위 그 자체입니다. 이곳에 대한 투자가 가장 큰 리턴을 가져옵니다.
SFT가 ★가 되는 곳은 형식·스타일이 가치를 지니는 영역
게임 캐릭터, CS, 교육은 "무엇을 아는가"보다 "어떻게 답하는가"가 가치이기 때문에 SFT 중심이 됩니다.
DPO가 단독으로 ★가 되는 도메인은 없다
어느 영역에서든 DPO는 SFT의 후처리(Post-processing)로서 기능하기 때문에, 단독으로 주인공이 되는 경우는 거의 없습니다.
8. 실무상의 병목 현상
이론적인 최적 배분보다, 데이터가 존재하는가의 문제가 실무에서는 더 큽니다.
| 업계 | 실무상의 주요 장벽 |
|---|---|
| 금융 | 규제로 인해 외부 공유가 불가능한 데이터가 많음 |
| ... |
업계 특화 모델의 진정한 승부는 "최적 배분의 계산"보다 앞서, **"데이터를 어떻게 수집할 것인가·데이터 전처리(Pre-processing)를 어떻게 할 것인가"**라는 데이터 파이프라인 설계에 있습니다.
요약
LLM의 데이터 혼합 전략을 정리하면 다음과 같은 3개의 레이어로 나뉩니다.
Layer 1: 무엇을 섞을 것인가 (데이터 유형)
Web, 서적, 코드, 학술, 합성 데이터(Synthetic Data)를 조합합니다. 도메인에 따라 전문 데이터의 비율을 높입니다.
Layer 2: 얼마나 섞을 것인가 (업계별 배분)
전문성이 높은 업계일수록 도메인 데이터를 늘리지만, 일반 Web 데이터는 최소 10~20%를 유지합니다.
Layer 3: 어느 단계에 투자할 것인가 (단계별 배분)
- 코드·수학 → GRPO에 적극 투자
- 지식 계열 (금융·법률·의료) → CPT에 적극 투자
- 형식·스타일 계열 (CS·게임) → SFT에 적극 투자
- DPO는 7B 이상의 모델에서 품질 정교화를 위한 마무리 단계로 사용
참고 문헌
- Xie et al. (2023) DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining— arxiv: 2305.10429
- Ye et al. (2024) Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance— arxiv: 2403.16952
- Liu et al. (2024) RegMix: Data Mixture as Regression for Language Model Pre-training— arxiv: 2407.01492
- Grattafiori et al. (2024) Llama 3 Technical Report
- OLMo Team (2025) OLMo 2
- Kang et al. (2024) AutoScale: Automatic Prediction of Computation-optimal Data Composition for Training LLMs
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기