LLM 추론을 위한 통합 데이터 선택 (Unified Data Selection for LLM Reasoning)

복잡하고 긴 사고 사슬 (long-CoT) 추론을 위해 대규모 언어 모델 (LLMs)을 효과적으로 학습시키는 것은 종종 방대한 양의 고품질 추론 데이터가 필요하다는 점 때문에 병목 현상이 발생합니다. 기존 방법들은 계산 비용이 많이 들거나, 고품질 추론 샘플과 저품질 샘플을 신뢰성 있게 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해, 우리는 각 추론 샘플에서 엔트로피 (entropy)가 가장 높은 상위 (예: 0.5%) 토큰들의 엔트로피만을 합산하여 추론 품질을 정량화하는 학습이 필요 없는 (training-free) 지표인 High-Entropy Sum (HES)를 제안합니다. 우리는 세 가지 주요 학습 패러다임인 지도 미세 조정 (Supervised Fine-tuning, SFT), 거부 미세 조정 (Rejection Fine-tuning, RFT), 그리고 강화 학습 (Reinforcement Learning, RL) 전반에 걸쳐 HES를 검증하였으며, 광범위한 실험 결과 이를 통해 일관된 효과와 현저히 감소된 계산 오버헤드를 입증했습니다. SFT에서는 HES 순위 상위 20%의 데이터로 학습했을 때 전체 데이터셋의 성능과 일치하는 반면, 가장 낮은 HES 데이터를 사용하면 성능이 저하됩니다. RFT에서는 우리의 HES 기반 학습 방식이 베이스라인 방법들을 크게 능가합니다. RL에서는 HES로 선택된 성공적인 궤적 (trajectories)을 통해 모델이 강력한 추론 패턴을 학습할 수 있게 하여, 비교된 다른 방법들을 크게 앞질렀습니다. 우리의 연구 결과는 HES가 LLM의 고급 추론 능력을 개발하기 위한 통합적이고 효과적이며 효율적인 방법을 가능하게 하는 견고하고 학습이 필요 없는 (training-free) 지표임을 확립합니다.

Insights

LLM 추론을 위한 통합 데이터 선택 (Unified Data Selection for LLM Reasoning)

요약

핵심 포인트

댓글

더 많은 프롬프트가 필요한 것이 아니라, 당신의 누수(Leaks)를 찾아야 합니다

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입