X요약2026. 06. 02. 07:38

Trust-Region Behavior Blending을 통한 On-policy Distillation Warmup 문제 해결

요약

Trust-Region Behavior Blending 기법을 통해 On-policy Distillation Warmup 문제를 해결하는 연구를 소개합니다. KL 신뢰 영역 내에서 학생 모델의 롤아웃을 교사 정책과 혼합하여 수학적 추론 성능을 극대화합니다. 또한 Tencent의 새로운 Universal Audio Tokenizer 출시 소식도 포함되어 있습니다.

핵심 포인트

KL 신뢰 영역 내 학생-교사 정책 혼합 기법 제안
예산을 점진적으로 감소시켜 수학적 추론 성능 최적화
Tencent의 단일 코드북 기반 Universal Audio Tokenizer 출시
오디오 인지와 언어적 정렬을 결합한 Audio-LLM 통합 지원

Trust-Region Behavior Blending은 KL 신뢰 영역 (KL trust region) 내에서 학생 (student)의 롤아웃 (rollouts)을 가장 가까운 교사 (teacher) 정책과 혼합합니다.

예산 (budget)은 점진적으로 0까지 감소하며, 이를 통해 두 가지 수학적 추론 (math-reasoning) 벤치마크에서 가장 강력한 평균 결과를 도출합니다.

논문:
https://huggingface.co/papers/2605.3159
…
저자 스레드:

Tencent가 Hugging Face에 Universal Audio Tokenizer를 출시했습니다.

이는 일반적인 오디오 인지 (audio perception)와 언어적 정렬 (linguistic alignment)을 독특하게 결합하여, 원활한 Audio-LLM 통합을 지원하는 컴팩트한 단일 코드북 (single-codebook) 모델입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Trust-Region Behavior Blending을 통한 On-policy Distillation Warmup 문제 해결

요약

핵심 포인트

댓글