CausalMix: 언어 모델 학습을 위한 인과 추론으로서의 데이터 혼합 (Data Mixture)

대규모 언어 모델 (LLM) 학습에서 데이터 혼합 (data mixing)은 모델 성능을 결정하는 데 중추적인 역할을 합니다. 최근의 방법들은 프록시 모델 (proxy models)을 통해 혼합 가중치를 최적화하지만, 이는 정적인 데이터 분포 (static data distributions) 가정을 기반으로 합니다. 결과적으로, 근본적인 데이터 풀 (data pool)이 변화할 때 이러한 방법들은 처음부터 다시 수행해야 하는 비용이 많이 드는 재학습을 요구합니다. 이러한 한계는 소규모 설정에서 더 큰 데이터 풀과 모델 크기로 원활하게 확장하는 능력을 제한합니다. 본 논문에서는 데이터 혼합 최적화를 인과 추론 (causal inference) 문제로 설정함으로써 이러한 한계를 해결하기 위한 CausalMix를 제안합니다. 우리는 데이터 풀의 통계적 특징을 공변량 (covariates)으로, 도메인 혼합 (domain mixture)을 처치 (treatment)로 공식화합니다. 조건부 평균 처치 효과 (Conditional Average Treatment Effect, CATE)를 추정하기 위해 Qwen2.5-0.5B의 512회 실행 결과에 인과 모델을 적합시킨 후, 800K 데이터 풀에 대한 최적의 혼합을 외삽 (extrapolate)하여 7B 모델을 학습하는 데 적용합니다. 나아가, 우리는 이 프레임워크를 Qwen3-4B-Base의 긴 사고 사슬 (long chain-of-thought) 데이터로 성공적으로 일반화했습니다. 혼란 편향 (confounding biases)을 격리하기 위해 인과 모델링을 활용함으로써, CausalMix는 상태 의존적인 최적의 데이터 혼합을 동적으로 추론합니다. 광범위한 실험을 통해 CausalMix에 의해 가이드된 혼합이 여러 다운스트림 태스크 (downstream tasks)에서 일관되게 성능을 향상시키며, RegMix 및 기타 베이스라인 (baselines)보다 뛰어난 성능을 보임을 입증했습니다. 또한, 우리는 CATE Interpreter를 사용하여 학습된 혼합 전략에 대한 시각적 분석을 제공합니다. 종합적으로, CausalMix는 LLM 데이터 혼합을 최적화하기 위한 인과적이고 해석 가능한 프레임워크를 제공합니다.

Insights

CausalMix: 언어 모델 학습을 위한 인과 추론으로서의 데이터 혼합 (Data Mixture)

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침