arXiv논문2026. 06. 02. 12:23

ResMerge: 대규모 언어 모델(LLM)을 위한 잔차 기반 스펙트럼 병합 방식

요약

RL 전문가 모델 병합 시 발생하는 충돌 문제를 해결하기 위해 잔차 기반 스펙트럼 병합 방식인 ResMerge를 제안합니다. 주요 헤드와 잔차 성분을 분리하여 각각의 특성에 맞게 병합함으로써 전문가의 역량을 효과적으로 보존합니다.

핵심 포인트

RL 태스크 벡터는 헤드와 잔차 성분 모두 중요한 지식을 포함함
ResMerge는 구형 잔차 합의 적응을 통해 안정적인 백본 구축
경량 헤드 교정 모듈로 전문가 간 충돌을 최소화하며 정보 재도입
기존 태스크 벡터 및 스펙트럼 병합 방식보다 우수한 성능 입증

모델 병합(Model merging)은 사후 학습된(post-trained) 여러 전문가 모델을 결합하는 훈련이 필요 없는(training-free) 방법을 제공하지만, 강화학습 (RL)을 통해 얻은 전문가들을 병합하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 스펙트럼 병합 (spectral merging) 방식들은 주로 주요 특이 방향 (leading singular directions)이 주요 태스크 신호를 포함하고 있으며, 에너지가 낮은 잔차 성분 (residual components)은 간섭을 줄이기 위해 압축, 선택 또는 감쇠될 수 있다고 가정합니다. 우리는 이러한 가정이 RL 태스크 벡터 (task vectors)에는 적용되지 않는다는 것을 발견했습니다. 각 태스크 벡터를 주요 스펙트럼 헤드 (leading spectral head)와 잔차 성분 (residual component)으로 분해한 결과, 두 부분 모두 독립적으로 상당한 행동 지식 (behavior knowledge)을 회복할 수 있는 반면, 서로 다른 병합 특성을 보였습니다. 헤드는 매우 집중되어 있고 정보량이 많지만 전문가 간의 급격한 충돌 (cross-expert conflicts)이 발생하기 쉬운 반면, 잔차 성분은 더 분산되어 있어 집합을 위한 더 안정적인 기반을 제공합니다. 이러한 관찰을 바탕으로, 우리는 RL 전문가를 위한 잔차 기반 스펙트럼 병합 프레임워크인 ResMerge를 제안합니다. ResMerge는 먼저 Frobenius 구체 (Frobenius sphere) 상에서 신뢰도 가중치가 적용된 합의 방향 (consensus direction)을 추정하는 구형 잔차 합의 적응 (Spherical Residual Consensus Adaptation)을 통해 안정적인 잔차 백본 (residual backbone)을 구축합니다. 그 다음, 전문가 간의 양의 합의 (positive cross-expert agreement)에 의해 게이팅되는 경량 헤드 교정 (Lightweight Head Correction) 모듈을 통해 주요 헤드 정보를 다시 도입합니다. 여러 RL 전문가 그룹 및 역량 도메인에 걸친 실험을 통해, ResMerge가 대표적인 태스크 벡터 (task-vector) 및 스펙트럼 병합 (spectral merging) 베이스라인보다 전문가의 역량을 더 잘 보존함을 보여줍니다. ResMerge의 구현체는 https://github.com/sunyd0303-cpu/ResMerge-release 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ResMerge: 대규모 언어 모델(LLM)을 위한 잔차 기반 스펙트럼 병합 방식

요약

핵심 포인트

댓글