ChunkFT: 메모리 효율적인 전체 미세 조정(Full Fine-Tuning)을 위한 바이트 스트림 기반 최적화

본 연구는 동적으로 활성화되는 작업 세트(working set)를 중심으로 전체 파라미터 미세 조정(full-parameter fine-tuning)을 재구성하는 메모리 효율적인 미세 조정 프레임워크인 extsc{ChunkFT}를 제시합니다. extsc{ChunkFT}는 네트워크 구조를 수정하지 않고도 임의의 서브 텐서(sub-tensors)에 대한 그래디언트(gradient) 계산을 가능하게 하여, 표준적인 밀집 그래디언트(dense gradient) 계산을 피하면서 임의의 서브 네트워크를 최적화할 수 있는 알고리즘적 토대를 제공합니다. 우리는 결정론적 설정(deterministic setting)에서 extsc{ChunkFT}의 이론적 수렴 분석(convergence analysis)을 제공합니다. 실증적으로, 우리는 extsc{ChunkFT}를 각각 단일 RTX 4090-24GB GPU와 2$ imes$ H800-80GB GPU를 사용하여 Llama 3-8B 및 Llama 3-70B를 미세 조정하는 데 적용했습니다. 1K 입력 길이를 가진 7B 모델의 전체 파라미터 미세 조정에는 단 13.72GB의 GPU 메모리만 필요합니다. 결과는 메모리 사용량, 실행 시간 및 최적화 품질 측면에서 extsc{ChunkFT}의 효과를 입증합니다. 또한, 언어 이해, 수학적 추론 및 MT-Bench에 대한 다운스트림 평가(downstream evaluations) 결과, extsc{ChunkFT}가 기존의 메모리 효율적인 베이스라인(baselines)들을 일관되게 능가함을 보여줍니다. 특히, extsc{ChunkFT}는 전체 파라미터 미세 조정과 대등하거나 경우에 따라 이를 상회하는 성능을 달성합니다. 우리의 저장소는 https://github.com/misonsky/chunk 에 있습니다.

Insights

ChunkFT: 메모리 효율적인 전체 미세 조정(Full Fine-Tuning)을 위한 바이트 스트림 기반 최적화

요약

핵심 포인트

댓글

중국이 답이었다 — 테슬라 6월 판매 8만9091대 올해 최고, 모델Y 현지 1위 | 7/8 테슬라 브리핑

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!