arXiv논문2026. 06. 15. 11:19

나의 튜터가 되어줘: 피어 피드백(Peer Feedback)을 통한 상호 LLM 개선을 위한 온-폴리시 공동 증류 (On-Policy

요약

두 모델이 온-폴리시 피드백을 통해 서로의 강점을 학습하며 함께 진화하는 '온-폴리시 공동 증류(OPCoD)' 기술을 제안합니다. 인지 기반 게이팅과 피드백 앵커링을 통해 상호 파레토 개선을 달성하며, 과학 Q&A 작업에서 기존 베이스라인을 능가하는 성능을 입증했습니다.

핵심 포인트

상호 파레토 개선을 목표로 하는 멀티 도메인 LLM 학습 연구
온-폴리시 공동 증류(OPCoD) 방법론 제안
인지 기반 게이팅 및 피드백 앵커링 기술 적용
과학 Q&A 작업에서 기존 모델 대비 우수한 성능 확인

우리는 서로 다른 도메인에서 각각 더 강점을 가진 두 모델이 온-폴리시 피드백 (on-policy feedback)을 통해 서로를 가르치며 함께 진화하는 멀티 도메인 LLM 학습을 연구합니다. 일방향 증류 (one-way distillation)나 단일 모델 미세 조정 (single-model fine-tuning)과 달리, 우리의 목표는 상호 파레토 개선 (mutual Pareto improvement)입니다. 즉, 각 모델이 기존의 강점을 잃지 않으면서 모든 도메인에 걸쳐 개선되는 것입니다. 이를 위해 우리는 각 학생 모델의 자기 증류 (self-distillation)가 자신의 올바른 롤아웃 (rollout)과 피어(peer)로부터의 피드백을 조건으로 하는 온-폴리시 공동 증류 (On-Policy Co-Distillation, OPCoD)를 제안합니다. 피드백 교환을 효과적으로 만들기 위해, OPCoD는 언제 피드백을 줄지 결정하는 인지 기반 게이팅 (cognizance-based gating)과 피드백을 문제에 고착시키는 피드백 앵커링 (feedback anchoring)을 사용합니다. 과학 Q&A 작업에서 OPCoD는 일관되게 베이스라인 (baselines)을 능가하며, 평가된 모든 도메인 쌍과 학생 모델에 대해 파레토 개선 (Pareto improvement)을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

나의 튜터가 되어줘: 피어 피드백(Peer Feedback)을 통한 상호 LLM 개선을 위한 온-폴리시 공동 증류 (On-Policy

요약

핵심 포인트

댓글