arXiv논문2026. 06. 04. 13:17

TaDA: 태스크-도메인 LoRA 병합을 위한 보정된 프로브 게이팅 (Calibrated Probe Gating)

요약

TaDA는 태스크와 도메인 LoRA 어댑터를 효율적으로 결합하는 새로운 훈련 불필요 알고리즘입니다. 레이어 깊이에 따른 비대칭성을 활용한 게이팅과 서브스페이스 인식 병합을 통해 추론 오버헤드 없이 높은 성능을 구현합니다.

핵심 포인트

레이어 깊이에 따른 태스크/도메인 비대칭성 발견
보정된 프로브 게이팅을 통한 레이어별 가중치 할당
충돌하는 특이 방향을 제거하는 서브스페이스 인식 병합
Llama-2 및 ViT 벤치마크에서 기존 방식 대비 성능 우위

태스크 (task) LoRA 어댑터와 도메인 (domain) LoRA 어댑터를 하나의 통합된 모델로 결합하는 것은 실용적이지만 아직 크게 탐구되지 않은 과제입니다. 기존 방법들은 두 어댑터를 대칭적인 동등 관계로 취급하여 모든 레이어에 걸쳐 균일한 가중치를 적용합니다. 우리는 태스크 어댑터와 도메인 어댑터가 트랜스포머 (transformer) 아키텍처 전반에 걸쳐 일관된 깊이 의존적 비대칭성 (depth-dependent asymmetry)을 보인다고 주장합니다. 레이어의 깊이가 깊어질수록 도메인 지배력이 증가하는 반면, 얕은 레이어는 더 강력한 태스크 관련 신호를 유지합니다. 이러한 관찰에 착안하여, 우리는 보정된 프로브 가이드 기반의 레이어별 게이팅 (per-layer gating) 및 컴포넌트별 서브스페이스 인식 병합 (per-component subspace-aware merging)을 통해 이 구조를 활용하는 훈련이 필요 없는 알고리즘인 $\textbf{TaDA}$ ($\textbf{Ta}$sk-$\textbf{D}$omain LoR$\textbf{A}$ Merging)를 제안합니다. 게이팅은 어댑터 가중치 크기에 불변함이 증명된 프로브 신호를 사용하여 레이어 및 투영 (projection) 유형별로 개별 가중치를 할당합니다. 병합 과정에서는 남은 컴포넌트들을 결합하기 전에 충돌하는 특이 방향 (singular directions)을 제거합니다. $\textbf{TaDA}$는 추론 오버헤드 (inference overhead)가 없는 표준 랭크-$r$ (rank-$r$) LoRA 어댑터를 생성합니다. Llama-2-7B를 사용한 6개의 과학 QA 벤치마크에서 TaDA는 평균 정확도 0.452를 달성하여 DARE-TIES보다 +3.6 퍼센트 포인트를 상회하였으며, 6개 벤치마크 모두에서 최고의 결과를 얻었습니다. ViT-L/16을 사용한 6개의 이미지 분류 벤치마크에서 TaDA는 85.9%의 평균 정확도에 도달하여 가장 강력한 병합 베이스라인 (merging baseline)보다 성능을 개선하였으며, 6개의 개별 벤치마크 중 3개에서 선두를 차지했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TaDA: 태스크-도메인 LoRA 병합을 위한 보정된 프로브 게이팅 (Calibrated Probe Gating)

요약

핵심 포인트

댓글