ZO-Act: One-Shot 활성화 정보 기반 저차원 부분 공간을 통한 효율적인 Zeroth-Order 미세 조정

Zeroth-order (ZO) 최적화는 역전파 (backpropagation)를 사용할 수 없거나 메모리 비용이 너무 큰 경우 대규모 언어 모델 (LLM)의 미세 조정 (fine-tuning)을 가능하게 하지만, 기존 방법들은 종종 전체 모델 가중치를 섭동 (perturb)하거나 무작위로 구성된 저차원 부분 공간 (low-dimensional subspaces)을 사용하여 높은 분산 추정치와 제한된 성능을 초래합니다. 우리는 입력 활성화 (input activations)로부터 유도된 고정된 저차원 부분 공간 (low-rank subspace)으로 섭동을 제한하는 활성화 정보 기반 ZO 미세 조정 방법인 ZO-Act를 제안합니다. 각 선형 레이어 (linear layer)에 대해, ZO-Act는 초기화 시점에 한 번 작은 활성화 기저 (activation basis)를 계산하고, 순방향 (forward-only) 손실 평가만을 사용하여 경량 계수 행렬 (coefficient matrices)만을 최적화합니다. 이는 유효 섭동 차원을 줄이고, Adam과 같은 모멘텀 기반 최적화 도구 (momentum-based optimizers)와 호환되는 명시적인 학습 가능 변수를 노출하며, 저비트 가중치를 동결 상태로 유지함으로써 양자화된 LLM (quantized LLM) 미세 조정을 자연스럽게 지원합니다. 우리는 ZO-Act를 제한된 계수 공간에서의 zeroth-order 최적화로 분석하며, 저차원 계수를 섭동하는 것이 LLM의 저차원 구조 (low-rank structure)에 의해 완화되는 제어된 부분 공간 근사 편향 (subspace approximation bias)을 대가로, ZO 추정기의 분산 의존 수렴 항 (variance-dependent convergence term)과 유한 차분 오차 (finite-difference error)를 모두 줄임을 보여줍니다. Llama-3-8B, OPT-13B, 그리고 INT4 Llama-3-8B에 대한 실험 결과, 언어 이해 (language understanding), 질의응답 (question answering), 상식 추론 (commonsense reasoning) 전반에 걸쳐 강력한 ZO 미세 조정 베이스라인 대비 일관된 성능 향상을 보여주었습니다.

Insights

ZO-Act: One-Shot 활성화 정보 기반 저차원 부분 공간을 통한 효율적인 Zeroth-Order 미세 조정

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화