arXiv논문2026. 06. 01. 11:02

모든 합성 데이터가 학습에 유용한 것은 아니다

요약

합성 데이터가 모델 성능 향상에 유용하려면 데이터 자체의 속성보다 소스 모델과 학생 모델 간의 관계적 속성이 중요함을 밝힌 연구입니다. 프롬프트 없는 자기 학습을 통해 모델의 기존 능력을 증폭시키면서도, 암기 성능은 낮추고 능력은 유지하는 분리 현상을 발견했습니다.

핵심 포인트

합성 데이터의 유용성은 소스-학생 모델 간의 관계적 속성에 달려 있음
동일 계보 모델 간의 전이가 다른 계열보다 훨씬 강력함
의미적 유사성 등 기존 지표로는 합성 데이터의 유용성을 예측하기 어려움
자기 학습을 통해 모델의 능력과 축자적 암기를 효과적으로 분리 가능

프롬프트(Prompt), 교사(Teacher), 검증기(Verifier), 그리고 보상 모델(Reward model) 없이, 언어 모델이 자신으로부터 샘플링한 일반 텍스트만으로 성능을 개선할 수 있을까요? 답은 '예'입니다. 하지만 이는 합성 코퍼스(Synthetic corpus)가 학생 모델과 호환될 때만 가능하며, 이는 데이터 자체의 내재적 속성이 아닌 소스-학생 쌍(Source-student pair)의 관계적 속성입니다. 우리는 이를 '잠재 능력 재표출 가설(Latent capability resurfacing hypothesis)'이라고 부릅니다. 즉, 약한 자기 학습(Weak self-training)은 이미 사전 학습된 모델(Pretrained model)에 존재하는 능력을 증폭시킬 수 있지만, 이는 오직 이러한 호환성 조건 하에서만 이루어집니다.

우리는 태스크 지정이나 외부 감독 없이, BOS(Beginning of Sentence) 토큰만으로 생성된 텍스트를 통해 베이스 언어 모델(Base language models)을 미세 조정(Fine-tuning)하는 프롬프트 없는 무조건적 자기 학습(Prompt-free unconditional self-training)이라는 최소 설정에서 이를 연구합니다. 우리는 세 가지 발견을 보고합니다.

첫째, 합성 유용성(Synthetic utility)은 내재적 속성이 아닌 관계적 속성입니다. 자기 생성 데이터(Self-generated data)가 가장 효과적인 소스이며, 동일 계보 전이(Same-lineage transfer)가 더 강력하지만 다르게 학습된 소스보다 성능이 뛰어나며, 계열 간 전이(Cross-family transfer)는 상당히 약합니다.

둘째, 일반적인 내재적 대리 지표(Intrinsic proxies)들은 실패합니다. 벤치마크 수준의 의미적 유사성(Semantic similarity)이나 학생 모델에서의 평균 토큰별 가능도(Average per-token likelihood) 모두 어떤 코퍼스가 도움이 될지를 예측하지 못합니다.

셋째, 이 방식은 놀라운 부산물을 만들어냅니다. 통제된 Pythia 실험에서 능력(Capability)과 축자적 암기(Verbatim memorization)가 분리됩니다. 별도의 망각 세트(Forget set), 개인정보 보호 목적, 또는 타겟팅된 언러닝(Unlearning) 없이도, 벤치마크 유용성은 유지되거나 향상되는 반면, 홀드아웃(Held-out) 정확 일치 추출(Exact-match extraction)은 95% 이상 감소합니다.

종합하면, 이러한 결과들은 프롬프트 없는 자기 학습이 데이터로부터 구조를 가져오는 것이 아니라, 학생이 이미 알고 있는 것을 증폭함으로써 작동함을 시사합니다. 또한 이는 명시적인 언러닝 목적 없이도 능력과 축자적 암기를 분리할 수 있는 체계를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 합성 데이터가 학습에 유용한 것은 아니다

요약

핵심 포인트

댓글