arXiv논문2026. 05. 29. 12:54

MIRA: 소스 인지적 데이터 선택을 위한 중간 학습 루브릭 앵커링 (Mid-training Rubric Anchoring)

요약

MIRA는 LLM 중간 학습 단계에서 이질적인 데이터 소스에 최적화된 데이터 선택을 위해 제안된 프레임워크입니다. 자기 앵커링 루브릭 발견 기술을 통해 소스별 맞춤형 기준을 설정하고, 이를 학생 스코어러로 증류하여 확장성을 확보합니다. 실험 결과, 코드 중심 학습에서 데이터 사용량을 절반으로 줄이면서도 뛰어난 성능을 입증했습니다.

핵심 포인트

소스 인지적 필터링을 통한 맞춤형 데이터 선택 프레임워크 제안
자기 앵커링 루브릭 발견 및 학생 스코어러 증류 기술 활용
데이터 효율성 극대화: 토큰 50% 사용 시에도 전체 코퍼스 수준 성능 달성
9개 코드 벤치마크에서 기존 선택 베이스라인 대비 우수한 성능 확인

중간 학습 (Mid-training)은 현대 LLM (Large Language Model) 개발에서 최종 사후 학습 (post-training) 전 능력을 강화하기 위해 대규모로 큐레이션된 혼합 데이터를 사용하는 중요한 단계가 되었습니다. 이 단계의 데이터 선택 문제는 독특합니다. 데이터는 사전 학습 (pretraining) 규모에 가까운 사전 학습 스타일의 목적 함수 하에서 최적화되지만, 다운스트림 능력 (downstream capabilities)을 향해 큐레이션되며 서로 다른 형식과 학습 역할을 가진 이질적인 소스 (heterogeneous sources)로부터 추출됩니다. 결과적으로, 효과적인 선택을 위해서는 확장성 (scalability)과 소스 적응형 의미론적 기준 (source-adaptive semantic criteria)이 모두 필요합니다. 기존의 모델 기반 방법들은 확장성은 좋지만 암시적인 품질 신호만을 제공합니다. 의미론적 선택 (Semantic selection) 방법들은 더 강력한 판단을 제공하지만, 대개 고정된 루브릭 (rubrics)이나 표준화된 데이터 형식을 가정합니다. 이러한 불일치를 해결하기 위해, 우리는 자기 앵커링 루브릭 발견 (self-anchored rubric discovery)에 기반한 소스 인지적 필터링 프레임워크인 MIRA를 제안합니다. 핵심 아이디어는 루브릭 구축을 데이터 선택의 일부로 만드는 것입니다. MIRA는 먼저 각 소스 그룹에 대해 무엇을 평가해야 하는지를 발견한 다음, 전체 코퍼스 (full-corpus) 필터링을 위해 해당 판단을 확장 가능한 학생 스코어러 (student scorers)로 증류 (distill)합니다. 21개의 소스와 5개의 소스 그룹을 포함하는 코드 중심의 중간 학습 실험에서, MIRA는 9개의 코드 벤치마크 전반에서 선택 베이스라인 (selection baselines)보다 뛰어난 성능을 보였으며, 토큰을 절반만 사용하면서도 전체 코퍼스 실행 결과와 대등한 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MIRA: 소스 인지적 데이터 선택을 위한 중간 학습 루브릭 앵커링 (Mid-training Rubric Anchoring)

요약

핵심 포인트

댓글