arXiv논문2026. 06. 01. 12:04

LLM 사후 학습을 위한 보상된 섭동의 통합 (Consolidating Rewarded Perturbations for LLM

요약

LLM 사후 학습 시 가중치 공간의 섭동을 활용하는 RandOpt의 한계를 극복하기 위한 CoRP 연구를 소개합니다. CoRP는 앙상블 대신 보상된 모델들을 하나의 모델로 통합하는 그래디언트 프리(gradient-free) 연산자로, 추론 비용을 낮추면서도 성능을 크게 향상시킵니다.

핵심 포인트

RandOpt의 다중 순전파 문제를 해결하는 CoRP 제안
그래디언트 없이 보상 가중 집계 및 재가중치 부여 방식 사용
단일 추론만으로 앙상블 효과의 절반 이상을 회복
0.5B~8B 모델 실험 결과 베이스 모델 대비 평균 8.1포인트 성능 향상

언어 모델의 사후 학습 (Post-training)은 일반적으로 경사 하강법 (gradient descent)에 의해 구현되는 샘플-점수-업데이트 루프로 구성됩니다. RandOpt로 대표되는 최근의 연구 흐름은 이 루프를 가중치 공간 (weight space)으로 이동시켜, 사전 학습된 모델 주변에서 가우시안 섭동 (Gaussian perturbations)을 샘플링하고 추론 시 보상이 높은 상위 K개의 전문가 (specialists)를 앙상블 (ensembling)합니다. 동일한 학습 연산량 조건에서 PPO 및 GRPO와 경쟁할 만한 성능을 보이지만, 이러한 예측 수준의 앙상블은 테스트 예시당 K번의 순전파 (forward passes)를 발생시키며 자유 형식 생성 (free-form generation)으로 깔끔하게 확장되지 않습니다. 우리는 보상된 모집단 (rewarded population)을 대신 하나의 배포 가능한 모델로 통합하여, 추론 시의 앙상블을 하나의 통합된 업데이트로 대체할 수 있는지 질문합니다. 25개의 모델-태스크 쌍에 대한 분할-반 분석 (split-half analysis) 결과, 모든 사례에서 재현 가능한 저차원 구조 (low-rank structure)가 드러납니다. 우리는 이러한 기하학적 구조를 CoRP (Consolidating Rewarded Perturbations)로 전환합니다. CoRP는 언어 모델을 통해 그래디언트 (gradient)가 흐르지 않으면서, 보상 가중 집계 (reward-weighted aggregation), 호환성 인지 재가중치 부여 (compatibility-aware reweighting), 그리고 홀드아웃 검증 게이트 (held-out validation gate)를 결합한 그래디언트 프리 (gradient-free) 연산자입니다. 0.5B에서 8B 규모의 5개 언어 모델과 수학, 코드, 창의적 글쓰기를 아우르는 5개 태스크에 걸쳐 실험한 결과, CoRP는 베이스 모델을 평균 8.1포인트 향상시켰습니다. RandOpt 섭동 예산의 10분의 1만을 사용하면서도, CoRP는 단일 추론 RandOpt보다 6.5포인트 더 높은 성능을 보였으며, 테스트 예시당 단 한 번의 순전파만으로 50회 통과 다수결 앙상블 (50-pass majority-vote ensemble) 이득의 절반 이상을 회복했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 사후 학습을 위한 보상된 섭동의 통합 (Consolidating Rewarded Perturbations for LLM

요약

핵심 포인트

댓글