X요약2026. 05. 21. 03:23

추론 RL을 위한 Anti-Self-Distillation (역 자기 증류)

요약

추론 RL(Reasoning RL) 성능 향상을 위해 발산을 역전시키는 Anti-Self-Distillation 기법을 제안합니다. 이 방식은 모델이 템플릿을 단순 반복하는 대신 'Wait'나 'Maybe'와 같은 숙고 토큰(deliberation tokens)을 보존하도록 유도하여 수렴 속도와 수학적 추론 성능을 크게 개선합니다.

핵심 포인트

Anti-Self-Distillation 기법을 통해 4B-30B 규모의 모델에서 2-10배 빠른 수렴 속도 달성
숙고 토큰(deliberation tokens) 보존을 통해 단순 템플릿 모방 방지
AIME 및 HMMT 벤치마크에서 +11.5점의 성능 향상 기록

추론 RL (Reasoning RL)을 위한 Anti-Self-Distillation (역 자기 증류)

발산 (Divergence)을 역전시키십시오.

템플릿을 앵무새처럼 따라 하는 대신 "Wait"나 "Maybe"와 같은 숙고 토큰 (deliberation tokens)을 보존함으로써, 4B-30B 모델 전반에 걸쳐 2-10배 빠른 수렴 (convergence)과 AIME/HMMT에서 +11.5점의 성능 향상을 이끌어냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

추론 RL을 위한 Anti-Self-Distillation (역 자기 증류)

요약

핵심 포인트

댓글

CXMT의 DDR5 RAM, SK hynix 다이 대비 성능 및 일관성 부족하다는 초기 테스트 결과 공개

Novo Nordisk, Wegovy 정제 및 고용량 주사기 제품에 대한 EU 승인 획득

Google, Epic Games와 소송 합의하며 안드로이드에 타사 앱 스토어 허용 예정

인플레이션 데이터가 CRWD 주식에 불을 붙인 이유