arXiv논문2026. 06. 18. 10:55

조절 가능한 모델 병합(Steerable Model Merging)을 통한 다국어 추론 능력 향상

요약

다국어 추론 능력을 향상시키기 위해 각 소스 모델의 기여도를 조절할 수 있는 ST-Merge 프레임워크를 제안합니다. 게이트형 교차 어텐션 메커니즘을 통해 모델 간 충돌을 해결하며, 21개 언어 벤치마크에서 기존 베이스라인을 능가하는 성능을 입증했습니다.

핵심 포인트

기존 모델 병합의 소스 모델 간 충돌 문제 해결
ST-Merge: 각 모델의 기여도를 조절 가능한 프레임워크 제안
게이트형 교차 어텐션을 통한 적응적 가중치 부여 및 필터링
21개 언어 및 4개 다국어 추론 벤치마크에서 우수한 성능 확인

모델 병합 (Model merging)은 다국어 모델과 추론 모델의 능력을 결합하는 효과적인 기술입니다. 이는 서로 다른 모델들의 특징 공간 (feature spaces)을 정렬함으로써 다국어 추론 작업에서 유망한 일반화 성능을 달성해 왔습니다. 그러나 병합된 단일 모델은 종종 소스 모델 (source models) 간의 충돌을 해결하지 못해 최적에 미치지 못하는 성능을 보이는 경우가 많습니다. 즉, 모든 상황에 동일하게 적용되는 (one-size-fits-all) 병합 전략은 특정 모델을 다른 모델보다 우선시해야 할 수도 있는 다양한 입력의 특성과 일치하지 않을 수 있습니다. 이를 위해, 우리는 각 소스 모델의 기여도를 조절할 수 있는 조절 가능한 모델 병합 (Steerable Model Merging, ST-Merge) 프레임워크를 제안합니다. 이 아이디어를 실현하기 위해, 우리는 어텐션 (attention)을 받는 두 소스 모델의 가중치를 적응적으로 부여하거나 필터링하는 게이트형 교차 어텐션 (gated cross-attention) 메커니즘을 도입합니다. 광범위한 실험을 통해 ST-Merge가 21개 언어에 걸친 4개의 다국어 추론 벤치마크에서 여러 강력한 베이스라인 (baselines) 모델들을 지속적으로 능가함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

조절 가능한 모델 병합(Steerable Model Merging)을 통한 다국어 추론 능력 향상

요약

핵심 포인트

댓글