arXiv논문2026. 06. 02. 10:13

신뢰 함수: 약한 교사의 신뢰 시점을 학습함으로써 달성하는 손실에 가까운 수준의 약한-강한 일반화 (Weak-to-Strong

요약

약한 교사의 레이블을 활용해 강한 학생 모델을 개선하는 '약한-강한 일반화' 연구를 다룹니다. 신뢰 함수를 통해 신뢰할 수 있는 레이블을 식별하고 필터링함으로써, 정답 감독에 근접한 성능을 달성하는 방법을 제안합니다.

핵심 포인트

신뢰 점수를 활용한 약한 감독 데이터 필터링 메커니즘 도입
세상 지식, 추론, 전략 게임 등 다양한 도메인에서 성능 입증
반복적인 약한-강한 체인을 통한 성능 이득의 복리 증폭 가능

약한-강한 일반화 (Weak-to-strong generalization)는 신뢰할 수 있는 레이블 (labels)이 부족할 때, 더 약한 교사 (teacher)의 감독을 사용하여 더 강한 학생 (student)을 개선하는 방법을 연구합니다. 우리는 이를 주로 데이터 선택 문제로 간주하며, 여기서 핵심 과제는 어떤 약한 레이블이 훈련 신호로 사용될 만큼 충분히 신뢰할 수 있는지 식별하는 것입니다. 이를 해결하기 위해, 우리는 각 약한 레이블에 스칼라 신뢰 점수 (scalar trust score)를 할당하고 이 점수를 사용하여 약한 감독 (weak supervision)을 필터링하는 신뢰 함수 (trust functions)를 도입합니다. 세상 지식 (world knowledge), 정량적 추론 (quantitative reasoning), 전략 게임 (strategy games)을 포함한 여러 도메인에서, 신뢰 필터링 (trust filtering)은 정답 (ground-truth) 감독과 일치하거나 때로는 이를 능가하는 학생을 생성하여, 손실에 가까운 수준의 약한-강한 일반화를 달성합니다. 또한, 신뢰 함수는 학생을 훈련시키고 이를 다음 교사로 재사용함으로써 이득을 복리로 쌓아가는 반복적인 약한-강한 체인 (iterative weak-to-strong chain)을 가능하게 하여 이득을 증폭시킵니다. 신뢰 함수의 이점은 여러 메커니즘에 기인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

신뢰 함수: 약한 교사의 신뢰 시점을 학습함으로써 달성하는 손실에 가까운 수준의 약한-강한 일반화 (Weak-to-Strong

요약

핵심 포인트

댓글