arXiv논문2026. 06. 30. 12:40

ARKD: 텍스트 생성을 위한 적응형 강화학습 유도 양방향 KL 발산 증류 (Adaptive Reinforcement

요약

지식 증류 과정에서 발생하는 주요 분포와 롱테일 확률 모델링 간의 불균형을 해결하기 위한 새로운 프레임워크를 제안합니다. 강화학습을 통해 FKL과 RKL의 가중치를 동적으로 조절하여 생성 품질과 일반화 성능을 동시에 향상시킵니다.

핵심 포인트

FKL과 RKL의 상호 보완적 역할을 활용한 분포 정렬 분석
강화학습 기반의 적응형 KL 가중치 증류 프레임워크 제안
주요 모드와 롱테일 모드 모두에서 이중 정렬 달성
Rouge-L 및 BertScore 등 주요 지표에서 기존 방식 대비 성능 개선

지식 증류 (Knowledge Distillation, KD)는 거대 언어 모델 (Large Language Models, LLMs)을 압축하기 위한 핵심 기술이지만, 단일 KL 목적 함수 (KL objective)에 의존하는 방법들은 주요 분포 적합 (primary distribution fitting)과 롱테일 확률 모델링 (long-tail probability modeling) 사이의 균형을 맞추는 데 종종 실패하며, 이는 생성 품질과 일반화 성능을 모두 제한합니다. 이를 해결하기 위해, 우리는 이론적 및 경험적 관점에서 분포 정렬 (distribution alignment) 시 순방향 및 역방향 KL 발산 (Forward/Reverse KL Divergence, FKL/RKL)의 상호 보완적인 역할을 분석합니다. 그런 다음, 강화학습 (Reinforcement Learning, RL) 기반의 적응형 KL 가중치 증류 프레임워크를 제안합니다. 이 프레임워크 내에서 정책 네트워크 (policy network)는 즉각적인 보상 신호 (immediate reward signals)의 안내를 받아, 교사-학생 (teacher-student) 분포 특성에 따라 FKL과 RKL에 동적으로 가중치를 할당함으로써 주요 모드 (principal modes)와 롱테일 모드 (long-tail modes) 모두에서 이중 정렬을 달성합니다. 광범위한 실험을 통해 Rouge-L 및 BertScore 지표 전반에서 일관된 개선을 입증하였으며, 탐욕적 휴리스틱 (greedy heuristics)보다 0.4-0.6포인트 높은 성능을 보였고 다양한 벤치마크에서 다른 베이스라인 방법들을 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARKD: 텍스트 생성을 위한 적응형 강화학습 유도 양방향 KL 발산 증류 (Adaptive Reinforcement

요약

핵심 포인트

댓글