본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 16:46

LLM 추론을 위한 통합 데이터 선택 (Unified Data Selection for LLM Reasoning)

요약

LLM의 복잡한 추론 능력을 향상시키기 위해 고품질 데이터를 효율적으로 선택하는 새로운 지표인 High-Entropy Sum(HES)를 제안합니다. HES는 별도의 학습 없이 엔트로피를 활용해 데이터 품질을 정량화하며, SFT, RFT, RL 등 다양한 학습 패러다임에서 성능 향상과 계산 비용 절감을 입증했습니다.

핵심 포인트

  • 학습이 필요 없는(training-free) HES 지표 제안
  • 엔트로피 기반의 효율적인 고품질 추론 데이터 선별
  • SFT, RFT, RL 전반에서 일관된 성능 향상 확인
  • 기존 방식 대비 현저히 낮은 계산 오버헤드 달성

복잡하고 긴 사고 사슬 (long-CoT) 추론을 위해 대규모 언어 모델 (LLMs)을 효과적으로 학습시키는 것은 종종 방대한 양의 고품질 추론 데이터가 필요하다는 점 때문에 병목 현상이 발생합니다. 기존 방법들은 계산 비용이 많이 들거나, 고품질 추론 샘플과 저품질 샘플을 신뢰성 있게 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해, 우리는 각 추론 샘플에서 엔트로피 (entropy)가 가장 높은 상위 (예: 0.5%) 토큰들의 엔트로피만을 합산하여 추론 품질을 정량화하는 학습이 필요 없는 (training-free) 지표인 High-Entropy Sum (HES)를 제안합니다. 우리는 세 가지 주요 학습 패러다임인 지도 미세 조정 (Supervised Fine-tuning, SFT), 거부 미세 조정 (Rejection Fine-tuning, RFT), 그리고 강화 학습 (Reinforcement Learning, RL) 전반에 걸쳐 HES를 검증하였으며, 광범위한 실험 결과 이를 통해 일관된 효과와 현저히 감소된 계산 오버헤드를 입증했습니다. SFT에서는 HES 순위 상위 20%의 데이터로 학습했을 때 전체 데이터셋의 성능과 일치하는 반면, 가장 낮은 HES 데이터를 사용하면 성능이 저하됩니다. RFT에서는 우리의 HES 기반 학습 방식이 베이스라인 방법들을 크게 능가합니다. RL에서는 HES로 선택된 성공적인 궤적 (trajectories)을 통해 모델이 강력한 추론 패턴을 학습할 수 있게 하여, 비교된 다른 방법들을 크게 앞질렀습니다. 우리의 연구 결과는 HES가 LLM의 고급 추론 능력을 개발하기 위한 통합적이고 효과적이며 효율적인 방법을 가능하게 하는 견고하고 학습이 필요 없는 (training-free) 지표임을 확립합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0