본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 20:52

LoRA 는 어디에 배치해야 할까? 하이브리드 언어 모델에서의 컴포넌트 유형 배치

요약

이 연구는 주의 메커니즘과 순환 구성 요소를 결합한 하이브리드 언어 모델에 대한 최적의 LoRA(저랭크 어댑터) 배치 전략을 제시합니다. 기존의 균일한 LoRA 적용 방식 대신, 컴포넌트 유형별 특성을 고려하여 적응하는 것이 중요함을 보여줍니다. 연구 결과, 주의 경로에만 LoRA를 집중적으로 적용했을 때 전체 모델 대비 훨씬 적은 파라미터로도 일관되게 우수한 성능을 달성했으며, 하이브리드 아키텍처의 토폴로지(순차형/병렬형)가 적응 방식과 전이 학습 결과에 결정적인 영향을 미친다는 것을 입증했습니다.

핵심 포인트

  • 주의 경로(Attention Path)에 LoRA를 집중적으로 적용하는 것이 가장 효과적이며, 전체 모델 대비 훨씬 적은 파라미터로도 높은 성능을 유지할 수 있다.
  • 하이브리드 아키텍처의 토폴로지(순차형 vs. 병렬형)는 LoRA 배치 전략과 전이 학습 결과에 결정적인 영향을 미친다.
  • 순환 백본(Recurrent Backbone) 적응은 순차형 하이브리드에서는 성능 저하를, 병렬형 하이브리드에서는 성능 향상을 가져오는 등 토폴로지 의존적이다.
  • 컴포넌트 인식 LoRA 배치는 하이브리드 아키텍처 설계의 필수적인 고려 사항임을 확립한다.

주의 메커니즘 (attention) 과 순환 구성 요소를 교차시키는 하이브리드 언어 모델은 순수 트랜스포머와 비교하여 경쟁력이 점차 높아지고 있으나, 표준 LoRA(저랭크 어댑터) 관행은 각 컴포넌트 유형의 고유한 기능적 역할을 고려하지 않고 어댑터를 균일하게 적용합니다. 우리는 Qwen3.5-0.8B (순차형, GatedDeltaNet + softmax 주의) 와 Falcon-H1-0.5B (병렬형, Mamba-2 SSM + 주의) 라는 두 가지 하이브리드 아키텍처에 걸쳐 컴포넌트 유형별 LoRA 배치에 대해 체계적으로 연구했습니다. 이 모델들은 세 가지 도메인으로 미세 조정되었으며 다섯 가지 벤치마크에서 평가되었습니다. 우리는 주의 경로가 소수 구성 요소임에도 불구하고 전체 모델 적응보다 5~10 배 적은 학습 가능 파라미터로 일관되게 더 나은 성능을 보인다는 것을 발견했습니다. 특히, 순차형 하이브리드에서는 순환 백본 (recurrent backbone) 을 적응시키는 것이 파괴적 (-14.8 pp 의 GSM8K 점수 하락) 인 반면, 병렬형에서는 건설적 (+8.6 pp 상승) 입니다. 우리는 또한 전이 비대칭성을 추가로 문서화했습니다: 병렬형 하이브리드는 양의 크로스-타스크 전이를 보이지만, 순차형 하이브리드는 재앙적 망각 (catastrophic forgetting) 을 겪습니다. 이러한 결과는 하이브리드 토폴로지가 적응 반응을 근본적으로 결정하며, 컴포넌트 인식 LoRA 배치가 하이브리드 아키텍처를 위한 필수 설계 차원임을 확립합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0