ZO-Act: One-Shot 활성화 정보 기반 저차원 부분 공간을 통한 효율적인 Zeroth-Order 미세 조정
요약
ZO-Act는 입력 활성화 정보를 활용하여 저차원 부분 공간 내에서 Zeroth-Order 미세 조정을 수행하는 새로운 방법론을 제안합니다. 기존 ZO 방식의 높은 분산 문제를 해결하며, 양자화된 LLM 미세 조정에서도 뛰어난 성능과 효율성을 보여줍니다.
핵심 포인트
- 입력 활성화 기반의 저차원 부분 공간을 활용해 섭동 차원 축소
- 순방향 손실 평가만 사용하는 경량 계수 행렬 최적화 방식
- 양자화된 LLM(INT4 등) 미세 조정에 대한 자연스러운 지원
- Llama-3, OPT 등 다양한 모델에서 언어 이해 및 추론 성능 향상 입증
Zeroth-order (ZO) 최적화는 역전파 (backpropagation)를 사용할 수 없거나 메모리 비용이 너무 큰 경우 대규모 언어 모델 (LLM)의 미세 조정 (fine-tuning)을 가능하게 하지만, 기존 방법들은 종종 전체 모델 가중치를 섭동 (perturb)하거나 무작위로 구성된 저차원 부분 공간 (low-dimensional subspaces)을 사용하여 높은 분산 추정치와 제한된 성능을 초래합니다. 우리는 입력 활성화 (input activations)로부터 유도된 고정된 저차원 부분 공간 (low-rank subspace)으로 섭동을 제한하는 활성화 정보 기반 ZO 미세 조정 방법인 ZO-Act를 제안합니다. 각 선형 레이어 (linear layer)에 대해, ZO-Act는 초기화 시점에 한 번 작은 활성화 기저 (activation basis)를 계산하고, 순방향 (forward-only) 손실 평가만을 사용하여 경량 계수 행렬 (coefficient matrices)만을 최적화합니다. 이는 유효 섭동 차원을 줄이고, Adam과 같은 모멘텀 기반 최적화 도구 (momentum-based optimizers)와 호환되는 명시적인 학습 가능 변수를 노출하며, 저비트 가중치를 동결 상태로 유지함으로써 양자화된 LLM (quantized LLM) 미세 조정을 자연스럽게 지원합니다. 우리는 ZO-Act를 제한된 계수 공간에서의 zeroth-order 최적화로 분석하며, 저차원 계수를 섭동하는 것이 LLM의 저차원 구조 (low-rank structure)에 의해 완화되는 제어된 부분 공간 근사 편향 (subspace approximation bias)을 대가로, ZO 추정기의 분산 의존 수렴 항 (variance-dependent convergence term)과 유한 차분 오차 (finite-difference error)를 모두 줄임을 보여줍니다. Llama-3-8B, OPT-13B, 그리고 INT4 Llama-3-8B에 대한 실험 결과, 언어 이해 (language understanding), 질의응답 (question answering), 상식 추론 (commonsense reasoning) 전반에 걸쳐 강력한 ZO 미세 조정 베이스라인 대비 일관된 성능 향상을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기