MiCA가 Hugging Face PEFT에 통합되었습니다

요약

Hugging Face PEFT 라이브러리에 새로운 적응 기술인 MiCA(Minor Component Adaptation)가 통합되었습니다. MiCA는 모델의 미세한 특이 부공간을 활용하여 기존 LoRA 대비 지식 습득력을 높이고 파괴적 망각을 줄이는 효율적인 미세 조정 방식을 제공합니다.

핵심 포인트

MiCA는 LoRA 대비 약 90% 높은 지식 습득력을 보여줌
파괴적 망각을 약 20% 감소시키며 학습 효율성 증대
LoRA 대비 약 80% 적은 학습 가능 파라미터 사용
베이스 모델을 활용한 지속적 사전 학습 및 도메인 적응에 최적화

Minor Component Adaptation의 약자인 MiCA가 이제 Hugging Face PEFT 라이브러리에 병합되었음을 기쁘게 공유합니다.

아직 최신 PyPI 릴리스에는 포함되지 않았지만, PEFT 메인 브랜치에서 직접 설치할 수 있습니다:
pip install --upgrade git+https://github.com/huggingface/peft.git@main

그 후 MiCA를 사용하는 방법은 매우 간단합니다:

from peft import LoraConfig, get_peft_model

config = LoraConfig(
    init_lora_weights="mica",
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    task_type="CAUSAL_LM",
)

model = get_peft_model(base_model, config)
model.print_trainable_parameters()

이것이 전부입니다. MiCA는 다음을 통해 기존 LoRA 인터페이스로 노출됩니다:
init_lora_weights="mica"

MiCA의 이면에 있는 아이디어는 간단합니다: 사전 학습된 가중치 행렬 (pretrained weight matrix)의 지배적인 특이 방향 (dominant singular directions)을 따라 적응하는 대신, MiCA는 미세한 특이 부공간 (minor singular subspace)을 사용합니다.

가중치 행렬 (weight matrix)에 대하여:
$W = U \Sigma V^T$

MiCA는 다음과 같이 초기화합니다:
$B = U[:, -r:]$
$A = 0$

따라서 $B A = 0$ 이기 때문에 어댑터는 아무 작업도 하지 않는 상태 (no-op)로 시작합니다.
초기화 시점에 베이스 모델 (base model)의 출력은 정확하게 보존됩니다. 학습 과정 동안 MiCA는 $B$를 고정 (frozen)하고 $A$만을 학습시킵니다.

이것이 왜 유용할까요?
직관적으로 보면, 주요 특이 방향 (major singular directions)은 이미 사전 학습된 모델의 기존 동작을 많이 인코딩하고 있습니다. 미세한 방향 (minor directions)은 원래 모델에 의해 덜 사용되며, 새로운 지식을 주입하기 위한 더 가소성 있는 부공간 (plastic subspace)을 제공할 수 있습니다.

우리의 실험에서, MiCA는 두 번의 실험과 세 개의 모델에 걸쳐 평균적으로 다음과 같은 결과를 보여주었습니다:

평균적으로 약 90% 더 높은 지식 습득 (knowledge uptake)
약 20% 적은 파괴적 망각 (catastrophic forgetting)
테스트된 설정에서 LoRA와 비교했을 때 약 80% 더 적은 학습 가능한 파라미터 (trainable parameters)

전체 실험 세부 사항은 논문을 참조하십시오.

실용적인 경험 법칙 (rule of thumb):
잘 작동하는 LoRA 설정이 있다면, 다음을 사용하여 MiCA를 시도해 보세요:
$r_{mica} \approx r_{lora} / 2$
$learning_rate_{mica} \approx 2 \times learning_rate_{lora}$

MiCA는 두 개의 LoRA 행렬 중 하나만 학습하기 때문에, 종종 더 적은 파라미터가 필요하며 다소 더 높은 학습률 (learning rate)을 사용할 수 있습니다.

권장 사항 (Best practice):
MiCA는 주로 지속적 사전 학습 (continued pretraining) / 도메인 적응형 사전 학습 (domain-adaptive pretraining)을 위해 설계되었습니다.
권장되는 워크플로우는 다음과 같습니다:

Instruct/Chat 모델이 아닌 베이스 모델 (base model)에서 시작합니다.
도메인 텍스트를 사용하여 MiCA 어댑터 (adapter)를 학습시킵니다.
어댑터를 모델에 병합 (merge)합니다.
병합된 모델을 이후의 지시어 튜닝 (instruction tuning) / 채팅 튜닝 (chat tuning)을 위한 적응된 베이스 모델로 사용합니다.

많은 경우, 어댑터를 해당 Instruct/Chat 모델로 병합하거나 전이하는 것이 더 효과적일 수 있습니다. 자세한 내용은 MiCA 논문을 참조하십시오.
저희는 주로 지속적 사전 학습 (continued pretraining) 및 지도 미세 조정 (supervised fine-tuning)을 위해 MiCA를 테스트했습니다. 초기 강화학습 (RL) 결과는 유망해 보입니다. 저희의 실험에서는 지시어 미세 조정 (instruction fine-tuning) 단독으로는 가장 유용한 설정이 아니었습니다.
협업해 주신 Sebastian Raschka 님과 리뷰 및 통합을 도와준 Hugging Face 팀 (Lewis Tunstal 및 Benjamin Bossan)에게 깊은 감사를 드립니다.
프리프린트 (Preprint): https://arxiv.org/abs/2604.01694
https://preview.redd.it/rbqi05lrb6ah1.png?width=1672&format=png&auto=webp&s=0f62e0f43b3926eb6ef0079fcd1fe4af38f1b831
제출자: /u/Majestic-Explorer315
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기