arXiv논문2026. 06. 10. 11:36

합성 사후 학습 데이터 큐레이션에서의 출처 기반 게이팅 및 적응형 복구

요약

합성 사후 학습 데이터 큐레이션에서 소스 근거 기반의 게이팅과 적응형 복구 전략의 효과를 연구했습니다. 연구 결과, 정확한 출처 기반 필터링과 실패 진단 및 타겟팅된 재생성을 결합한 복구 방식이 데이터 수율과 품질을 유의미하게 향상시킴을 확인했습니다.

핵심 포인트

소스 근거 기반 게이팅이 심사위원의 충실도를 개선함
환각 게이트와 보상 게이트는 서로 다른 샘플을 거부하여 상호 보완적임
적응형 복구 파이프라인이 단순 재샘플링보다 높은 수율을 달성함
미세 조정 품질은 생성기 규모와 필터링/복구 조건 모두에 영향을 받음

합성 사후 학습 (Synthetic post-training) 파이프라인은 일반적으로 보상 모델 (Reward models) 또는 종합적인 LLM 심사위원 (Holistic LLM judges)을 사용하여 생성된 샘플을 필터링하지만, 다음 두 가지 관행은 함께 조사된 적이 거의 없습니다: 필터링 신호가 각 생성을 유도한 소스 근거 (Source evidence)에 기반하는지 여부, 그리고 거부된 샘플을 영구적으로 폐기하는 대신 체계적으로 복구할 수 있는지 여부입니다. 우리는 적대적으로 주입된 말뭉치 (Adversarially injected corpora)를 사용하여 정답 실패 레이블 (Ground-truth failure labels)을 제공함으로써, 게이트 구성 (Gate configurations), 복구 전략 (Recovery strategies), 그리고 생성기 규모 (Generator scales)에 걸쳐 이 두 가지 질문에 대한 통제된 연구를 제시합니다. 연구 결과, 정확한 소스 출처 (Source provenance)는 더 강력한 심사위원을 위한 충실도 게이팅 (Faithfulness gating)을 개선하며, 환각 (Hallucination) 게이트와 보상 (Reward) 게이트는 서로 크게 겹치지 않는 샘플 집단을 거부하므로 두 가지 모두가 필요함을 발견했습니다. 또한, 실패 진단 (Failure diagnosis)과 타겟팅된 재생성 (Targeted regeneration)을 결합한 적응형 복구 (Adaptive recovery) 파이프라인은 단순 재샘플링 (Naive resampling)보다 더 높은 수율 (Yield), 복구율 (Recovery rate), 그리고 주입 재현율 (Injection recall)을 달성합니다. 다운스트림 미세 조정 (Downstream fine-tuning) 품질은 주로 생성기 규모 (Generator scale)에 의해 결정되지만, 필터링 (Filtration) 및 복구 (Recovery) 조건 또한 유의미하지만 부차적인 기여를 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

합성 사후 학습 데이터 큐레이션에서의 출처 기반 게이팅 및 적응형 복구

요약

핵심 포인트

댓글