GiVA: 벡터 기반 적응의 효율성을 높인 새로운 방법론
요약
대규모 모델 파인튜닝 시, 매개변수 효율적인 학습(PEFT) 기법이 필수적입니다. 기존 LoRA는 널리 쓰이지만, 벡터 기반 적응 방식은 극도의 효율성을 자랑하는 반면 높은 랭크 요구치 때문에 비용 문제가 있었습니다. 본 논문에서 제안하는 GiVA (Gradient-Informed Bases for Vector-Based Adaptation)는 기울기 정보를 활용하여 이 문제를 해결했습니다. LoRA와 유사한 학습 시간을 유지하면서도 벡터 기반 적응의 초고효율성을 달성하며, 기존 방식 대비 랭크 요구치를 최대 8배까지 줄여 성능과
핵심 포인트
- GiVA는 기울기 정보(gradient-based)를 활용하여 벡터 기반 적응 방식을 개선한 새로운 방법론입니다.
- LoRA와 유사한 학습 시간을 유지하면서도 벡터 기반 적응의 극단적인 매개변수 효율성을 달성했습니다.
- 실험 결과, GiVA는 기존 벡터 기반 방식 및 LoRA 대비 성능을 유지하거나 능가하는 동시에 랭크 요구치를 최대 8배까지 감소시켰습니다.
As model sizes continue to grow, parameter-efficient fine-tuning has emerged as a powerful alternative to full fine-tuning. While LoRA is widely adopted among these methods, recent research has explored vector-based adaptation methods due to their extreme parameter efficiency. However, these methods typically require substantially higher ranks than LoRA to match its performance, leading to increased training costs. This work introduces GiVA, a gradient-based initialization strategy for vector-based adaptation. It achieves training times comparable to LoRA and maintains the extreme parameter efficiency of vector-based adaptation. We evaluate GiVA across diverse benchmarks, including natural language understanding, natural language generation, and image classification. Experiments show that our approach consistently outperforms or achieves performance competitive with existing vector-based adaptation methods and LoRA while reducing rank requirements by a factor of eight ($8 imes$).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기