DRIFT: 효율적인 다회차 최적화를 위한 분리된 롤아웃 및 중요도 가중치 미세 조정
요약
DRIFT는 다회차 상호작용 환경에서 LLM을 효율적으로 최적화하기 위한 새로운 프레임워크입니다. 온라인 강화학습의 높은 비용과 오프라인 SFT의 분포 변화 문제를 해결하기 위해 롤아웃과 최적화 과정을 분리하여 구현했습니다.
핵심 포인트
- 롤아웃과 최적화 과정을 분리하여 학습 비용 절감
- 중요도 가중치(Importance Weights)를 활용한 가중치 SFT 방식 제안
- 온라인 강화학습 수준의 성능을 유지하며 SFT의 효율성 확보
- 다회차 상호작용 환경에서의 분포 변화 및 행동 붕괴 문제 해결
대규모 언어 모델(Large language models)은 사용자가 또는 환경이 반복적으로 가벼운 피드백을 제공할 수 있는 다회차 상호작용(multi-turn interactive) 환경에 점점 더 많이 배치되고 있습니다. 불행히도, 이러한 동작을 최적화하는 것은 실제 적용 시 심각한 딜레마를 안겨줍니다. 온라인 강화학습(online reinforcement learning)은 다회차 역학(multi-turn dynamics)을 효과적으로 다룰 수 있지만, 매 업데이트마다 전체 교정 궤적(full correction trajectories)을 생성하는 비용 때문에 비용이 매우 많이 듭니다. 반면, 오프라인 지도 미세 조정(offline supervised fine-tuning, SFT)은 효율적이지만 분포 변화(distribution shift)와 행동 붕괴(behavioral collapse) 문제를 겪습니다. 이를 해결하기 위해, 우리는 KL 정규화된 RL 목적 함수가 중요도 가중치 지도 학습(importance-weighted supervised learning)과 동일하다는 이론적 통찰을 실행 가능한 프레임워크로 구현한 DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning)를 새롭게 제안합니다. DRIFT는 고정된 참조 정책(reference policy)으로부터 오프라인 상호작용 궤적을 샘플링하고, 보상 기반의 중요도 가중치(importance weights)를 도출하며, 결과 데이터셋에 대해 가중치 SFT를 통해 정책을 최적화함으로써 롤아웃(rollout)과 최적화(optimization)를 분리합니다. 실증적으로, 우리는 DRIFT가 표준 지도 미세 조정의 훈련 효율성과 단순성을 유지하면서도 다회차 강화학습 베이스라인의 성능과 일치하거나 이를 능가함을 입증합니다. 코드는 https://github.com/2020-qqtcg/DRIFT 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기