통합 전 분리: SFT 및 RLVR 작업 벡터의 추론 시간 합성
요약
본 논문은 대규모 언어 모델(LLM)의 후속 훈련 과정에서 SFT와 RLVR이라는 두 가지 핵심 패러다임을 통합하는 어려움을 다룹니다. 기존 방식들이 재앙적 망각이나 그래디언트 충돌 같은 문제를 겪는 근본적인 이유를 작업 벡터 분석을 통해 밝혀냈습니다. 이를 해결하기 위해, 연구진은 모델 파라미터를 업데이트하지 않고도 추론 시간 합성(inference time synthesis)을 통해 두 패러다임의 능력을 결합하는 새로운 프레임워크인 DoTS(Decoupled Test-time Synthesis)를 제안했습니다.
핵심 포인트
- SFT와 RLVR은 각각 지식 확장과 추론 심화라는 고유한 강점을 가지지만, 직접적인 통합 훈련은 재앙적 망각 및 그래디언트 충돌 문제를 야기한다.
- 작업 벡터 분석을 통해 SFT와 RLVR의 차이점(magnitude disparity), 부호 간섭(sign interference) 등 구조적 문제들이 확인되었다.
- 제안된 DoTS 프레임워크는 모델 파라미터 업데이트 없이 추론 시간 연산을 통해 두 패러다임의 능력을 합성하여 성능을 향상시킨다.
- DoTS는 노름 보존 재스케일링과 베이지안 최적화를 사용하여 간섭을 줄이고, 기존 SOTA 방법보다 우수한 성능과 일반화 능력을 보여준다.
SFT (강화학습) 와 RLVR (Reasoning with Verification) 는 LLM (Large Language Model) 후 훈련 과정에서 두 가지 근본적이면서도 구별되는 패러다임을 나타냅니다. 각각은 고유한 차원에서 뛰어난 성능을 발휘합니다. SFT 는 지식의 폭을 확장하는 반면, RLVR 은 추론의 깊이를 강화합니다. 그러나 이러한 보완적인 강점을 통합하는 것은 여전히 formidable(거대한) 도전 과제입니다. 순차적 훈련은 재앙적 망각 (catastrophic forgetting) 을 초래할 수 있으며, 연동 최적화는 심각한 그래디언트 충돌을 겪습니다.
우리는 작업 벡터의 관점에서 SFT 와 RLVR 을 분석하여 이러한 실패 뒤에 있는 세 가지 구조적 특성을 드러냈습니다: 30* 크기의 차이 (magnitude disparity), 45* 부호 간섭 (sign interference), 그리고 이질적인 모듈별 업데이트 분포 (heterogeneous module-wise update distributions). 이러한 발견은 SFT 와 RLVR 을 직접 통합하기 어렵다는 것을 보여주지만, 두 패러다임이 모델의 부분적으로 보완적인 구성 요소를 수정한다는 것을 시사합니다.
이러한 관찰을 바탕으로, 우리는 추론 시간 합성 (inference time synthesis) 을 가능하게 하는 후속 프레임워크인 Decoupled Test-time Synthesis (DoTS) 를 제안했습니다. DoTS 는 SFT 와 RLVR 체크포인트를 독립적으로 훈련시키고, 모델 파라미터를 업데이트하지 않고도 추론 시간을 통해 작업 벡터 연산을 통해 두 패러다임의 능력을 합성합니다.
간섭을 줄이기 위해 DOTS 는 노름 보존 재스케일링 (norm-preserving rescaling) 을 적용한 선택적 희소화 (selective sparsification) 를 사용합니다. 그런 다음, 일관성과 perplexity(불확실성) 의 파레토 전선 (Pareto frontier) 에서 조합 계수를 찾기 위해 소수의 라벨 없는 쿼리 (unlabeled queries) 에 대한 베이지안 최적화를 수행합니다.
경험적으로, oours 은 여러 수학적 추론 벤치마크에서 훈련 기반 SFT--RLVR 통합 방법의 성능과 일치하거나 초과하며, 계산 비용은 약 3% 만 발생합니다. 더 강한 후 훈련 체크포인트에 적용될 때, DOTS 는 SOTA (State-of-the-Art) 모델을 능가하고 재 튜닝 없이 도메인 밖 벤치마크 (out-of-domain benchmarks) 에 일반화합니다. 코드는 https://github.com/chaohaoyuan/DoTS 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기