비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

저차원 적응 (Low-rank adaptation, LoRA)은 일반적으로 전체 미세 조정 (full fine-tuning)에 대한 업데이트 공간 근사로 간주되지만, 이러한 관점은 자기 게이트 방식 (self-gated)의 Transformer 피드포워드 네트워크 (feed-forward networks, FFN)에 대해서는 불완전합니다. 게이트 방식의 FFN에서 저차원 잔차 (low-rank residual)는 투영된 특징 (projected features)뿐만 아니라, 어떤 채널이 출력에 기여할지를 결정하는 비선형 선택 가중치 (nonlinear selection weights)까지 변화시킬 수 있습니다. 우리는 이 효과를 선택 불일치 (selection misalignment)로 공식화하고, 이를 자기 게이트 활성화 (self-gated activations)의 국소적 유효 동질성 (local effective homogeneity)과 연결합니다. 이는 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning, PEFT)을 위한 비선형성 인지 원칙을 제시합니다: 저차원 업데이트는 비선형 상태가 반응성을 유지하는 게이트 채널에 용량을 할당해야 하며, 선택의 시간적 진화 (temporal evolution of selection)를 형성해야 합니다. 우리는 두 가지 경량 메커니즘을 가진 훈련 전용 방법인 NA-LoRA를 제안합니다: 게이트 관련 LoRA 업데이트를 위한 미분 기반 시간적 중요도 마스크 (derivative-based temporal-importance mask)와, 의미 있는 거친 유효 동질성 분할 (coarse effective-homogeneity partition)이 가능할 때 적용되는 활성화 특정 단계 스케일링 규칙 (activation-specific step-scaling rule)입니다. NA-LoRA는 보조 손실 (auxiliary loss)을 추가하지 않으며 추론 시간 오버헤드 (inference-time overhead)를 발생시키지 않습니다. 언어 모델 미세 조정 및 시각-언어 전이 (vision-language transfer) 벤치마크에 대한 실험 결과, NA-LoRA는 기존의 LoRA보다 일관되게 성능을 향상시키며 강력한 PEFT 변형 모델들과 대등하거나 더 나은 성능을 보여줍니다.

Insights

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기