DRIFT: 리듬 게이트 탐색(Rhythm-Gated Exploration)과 성공 버퍼 학습(Success BuFfer Training)을
요약
LLM의 안정적인 자기 개선을 위한 새로운 프레임워크인 DRIFT를 제안합니다. 난이도 라우팅과 리듬 게이팅을 통해 학습 신호를 동적으로 조절하며, 벤치마크 테스트 결과 GRPO와 SDPO를 뛰어넘는 SOTA 성능을 기록했습니다.
핵심 포인트
- DRIFT 프레임워크는 난이도 라우팅과 리듬 게이팅을 결합하여 자기 개선 과정을 최적화함
- 성공 버퍼와 2단계 커리큘럼 학습을 통해 안정적인 정책 진화를 유도함
- 5개 벤치마크에서 GRPO 및 SDPO 대비 높은 성능을 보이며 SOTA 달성
- 특히 ToolUse 분야에서 기존 방법론 대비 압도적인 정확도 향상을 기록함
외부 전문가의 감독 없이 대규모 언어 모델(Large Language Models, LLMs)이 안정적인 자기 개선(Self-improvement)을 달성할 수 있도록 하는 것은 복잡한 추론 작업에서 여전히 핵심적인 과제로 남아 있습니다. 기존의 자기 증류(Self-distillation) 및 강화 학습(Reinforcement Learning, RL) 방법들은 문제 수준의 학습 진행 상황을 추적하고 그에 따라 최적화 전략을 조정하는 명시적인 메커니즘이 부족합니다. 결과적으로, 학습 과정에서 쉬운 문제에 과도하게 최적화되거나, 어려운 문제로부터는 약한 감독을 받게 되며, 경계선에 있는 사례(Borderline cases)를 충분히 탐색하지 못할 수 있습니다.
이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델을 위한 온라인 자기 진화 정책 최적화 프레임워크인 DRIFT를 제안합니다. DRIFT는 난이도 라우팅(Difficulty Routing)과 리듬 게이팅(Rhythm Gating)의 결합된 사용을 통해 모델의 자기 개선 과정을 조절합니다. 전자는 문제 수준에서 모델의 학습 상태를 식별하고 자기 증류 및 강화 학습 신호를 동적으로 할당하며, 후자는 토큰 수준에서 정책 업데이트를 정교화하여 중요한 추론 위치에 탐색을 집중시킵니다. 또한 성공 버퍼(Success Buffer)와 2단계 커리큘럼 학습(Curriculum Learning) 전략을 추가로 통합함으로써, DRIFT는 고품질의 과거 경험을 보존하는 동시에 모델이 신뢰할 수 있는 행동 습득에서 안정적인 정책 진화로 점진적으로 나아가도록 유도합니다.
5개의 벤치마크와 3가지 모델 규모에 대해 평가한 결과, DRIFT는 모든 평가 지표에서 GRPO와 SDPO의 최고 성능을 능가했습니다. 5개 벤치마크의 평균 점수에서 DRIFT는 79.5%를 달성하여 GRPO보다 9.5%, SDPO보다 7.5% 높은 성능을 보이며 새로운 SOTA(State-of-the-art) 결과를 수립했습니다. 특히 ToolUse에서 DRIFT는 79.2%의 정확도에 도달하여 GRPO보다 13.5%, SDPO보다 10.7% 향상된 성능을 기록하며 새로운 SOTA를 달성하였고, 모든 동시대 방법론들을 실질적으로 압도했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기