arXiv논문2026. 06. 01. 12:04

Balanced LoRA: 수렴 속도를 높이기 위한 파라미터 불변성 제거

요약

LoRA의 과잉 매개변수화로 인해 발생하는 조건수 차이가 수렴 속도에 미치는 영향을 분석합니다. 이를 해결하기 위해 가중치 행렬을 균형 잡힌 매니폴드로 투영하는 BaLoRA 기법을 제안하여 수렴 속도와 성능을 개선했습니다.

핵심 포인트

LoRA의 저계수 인자 쌍이 서로 다른 조건수를 가짐을 발견
BaLoRA는 손실 지형의 조건화를 개선하여 수렴 속도 향상
계산 효율적인 투영 단계를 통해 기존 파이프라인에 쉽게 통합 가능
다양한 미세 조정 작업에서 표준 LoRA 대비 우수한 성능 입증

Low-Rank Adaptation (LoRA)는 대규모 언어 모델 (Large Language Models)을 미세 조정 (Fine-tuning)하기 위해 가장 널리 채택되는 방법입니다. 특히, LoRA는 본질적으로 과잉 매개변수화 (Overparameterized)되어 있습니다. 즉, 여러 쌍의 저계수 인자 (Low-rank factors)가 동일한 조정된 가중치 행렬 (Adapted weight matrix)을 생성할 수 있습니다. 우리는 이론적 및 경험적으로 이러한 쌍들이 상당히 다른 조건수 (Condition numbers)를 나타낸다는 것을 보여줍니다. 결과적으로, 서로 다른 손실 최소화 지점 (Loss minimizers)으로 수렴하는 것은 LoRA의 수렴 속도 (Convergence rate)에 직접적인 영향을 미칩니다. 이러한 관찰을 바탕으로, 우리는 반복값 (Iterates)을 균형 잡힌 매니폴드 (Balanced manifold)로 투영하는 LoRA의 변형인 Balanced Low-Rank Adaptation (BaLoRA)를 소개합니다. 이 매니폴드는 조정된 행렬을 보존하면서 손실 지형 (Loss landscape)의 조건화 (Conditioning)를 개선합니다. 투영 단계 (Projection step)는 계산적으로 가볍고 기존의 미세 조정 파이프라인에 원활하게 통합됩니다. 경험적으로 BaLoRA는 표준 LoRA보다 빠르게 수렴하며, 다양한 미세 조정 작업에서 우수한 성능을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Balanced LoRA: 수렴 속도를 높이기 위한 파라미터 불변성 제거

요약

핵심 포인트

댓글