언제 더 많이 생성하는 것이 도움이 되는가? 합성 데이터 스케일링에서 고정 소스 합성(Fixed-Source Synthesis)과 소스

합성 데이터 (Synthetic data)는 두 가지 경로를 따라 스케일링 (scaling)될 수 있습니다. 하나는 시드 자료 (seed materials)나 생성기 (generators)를 추가하여 소스를 확대하는 소스 확장 (Source Expansion, SE)이며, 다른 하나는 소스를 고정하고 생성 예산 (generation budget)을 늘리는 고정 소스 합성 (Fixed-Source Synthesis, FSS)입니다. 기존의 스케일링 연구들은 일반적으로 데이터가 증가함에 따라 소스를 확장하기 때문에, SE와 FSS를 혼동하며 FSS에 대한 탐구는 미흡한 상태로 남겨두었습니다. 본 연구에서는 시드 질문 풀 (seed-question pool)과 교사 모델 (teacher model)을 고정하고, 거절 샘플링 (Rejection Sampling, RS) 하에서 질문당 응답 예산만을 변화시킴으로써 FSS를 분리하여 분석합니다. 우리는 반복적인 샘플링이 고정된 소스를 어떻게 커버하는지로부터 도출된 방식을 통해, 수정된 스케일링 법칙 (rectified scaling law)을 FSS에 맞게 조정합니다. 실증적으로, 낮은 예산에서 피팅 (fit)된 도출된 형태는 평가된 모든 교사-학생 (teacher-student) 쌍에 대해, 테스트용으로 남겨둔 가장 높은 예산에서의 성능을 예측합니다. 총 샘플 예산이 동일할 때, 작은 예산에서는 SE와 FSS가 유사한 성능을 보입니다. 그러나 큰 예산에서는 시드 질문을 추가하는 것이 동일한 예산을 더 많은 응답을 생성하는 데 사용하는 것보다 더 나은 성능을 보입니다. 하지만 FSS 내에서는, 기존 시드로부터 추가 질문을 합성하거나 합성 프로토콜 (synthesis protocol)을 변경하는 것 모두 동일한 예산 조건에서 일반적인 RS보다 뛰어난 성능을 보이지 못했습니다. 따라서 FSS는 제한된 스케일링 축 (bounded scaling axis)이자 합성 프로토콜을 비교하기 위한 통제된 설정입니다. 우리는 추가적인 연구를 촉진하기 위해 코드와 데이터를 공개할 예정입니다.

Insights

언제 더 많이 생성하는 것이 도움이 되는가? 합성 데이터 스케일링에서 고정 소스 합성(Fixed-Source Synthesis)과 소스

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법