언제 더 많이 생성하는 것이 도움이 되는가? 합성 데이터 스케일링에서 고정 소스 합성(Fixed-Source Synthesis)과 소스
요약
합성 데이터 스케일링의 두 가지 방식인 소스 확장(SE)과 고정 소스 합성(FSS)을 비교 분석한 연구입니다. FSS 환경에서 수정된 스케일링 법칙을 제안하며, 예산 규모에 따른 두 방식의 성능 차이와 FSS의 특성을 규명합니다.
핵심 포인트
- 소스 확장(SE)과 고정 소스 합성(FSS)의 개념적 차이 분석
- FSS에 최적화된 수정된 스케일링 법칙(rectified scaling law) 제안
- 대규모 예산에서는 소스 확장(SE)이 고정 소스 합성(FSS)보다 유리함
- FSS는 합성 프로토콜을 비교하기 위한 통제된 설정으로 유용함
합성 데이터 (Synthetic data)는 두 가지 경로를 따라 스케일링 (scaling)될 수 있습니다. 하나는 시드 자료 (seed materials)나 생성기 (generators)를 추가하여 소스를 확대하는 소스 확장 (Source Expansion, SE)이며, 다른 하나는 소스를 고정하고 생성 예산 (generation budget)을 늘리는 고정 소스 합성 (Fixed-Source Synthesis, FSS)입니다. 기존의 스케일링 연구들은 일반적으로 데이터가 증가함에 따라 소스를 확장하기 때문에, SE와 FSS를 혼동하며 FSS에 대한 탐구는 미흡한 상태로 남겨두었습니다. 본 연구에서는 시드 질문 풀 (seed-question pool)과 교사 모델 (teacher model)을 고정하고, 거절 샘플링 (Rejection Sampling, RS) 하에서 질문당 응답 예산만을 변화시킴으로써 FSS를 분리하여 분석합니다. 우리는 반복적인 샘플링이 고정된 소스를 어떻게 커버하는지로부터 도출된 방식을 통해, 수정된 스케일링 법칙 (rectified scaling law)을 FSS에 맞게 조정합니다. 실증적으로, 낮은 예산에서 피팅 (fit)된 도출된 형태는 평가된 모든 교사-학생 (teacher-student) 쌍에 대해, 테스트용으로 남겨둔 가장 높은 예산에서의 성능을 예측합니다. 총 샘플 예산이 동일할 때, 작은 예산에서는 SE와 FSS가 유사한 성능을 보입니다. 그러나 큰 예산에서는 시드 질문을 추가하는 것이 동일한 예산을 더 많은 응답을 생성하는 데 사용하는 것보다 더 나은 성능을 보입니다. 하지만 FSS 내에서는, 기존 시드로부터 추가 질문을 합성하거나 합성 프로토콜 (synthesis protocol)을 변경하는 것 모두 동일한 예산 조건에서 일반적인 RS보다 뛰어난 성능을 보이지 못했습니다. 따라서 FSS는 제한된 스케일링 축 (bounded scaling axis)이자 합성 프로토콜을 비교하기 위한 통제된 설정입니다. 우리는 추가적인 연구를 촉진하기 위해 코드와 데이터를 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기