본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 12:04

ChunkFT: 메모리 효율적인 전체 미세 조정(Full Fine-Tuning)을 위한 바이트 스트림 기반 최적화

요약

ChunkFT는 네트워크 구조를 변경하지 않고도 바이트 스트림 기반의 최적화를 통해 메모리 효율적인 전체 파라미터 미세 조정을 가능하게 하는 새로운 프레임워크입니다. 임의의 서브 텐서에 대한 그래디언트 계산을 지원하여 표준적인 밀집 그래디언트 계산의 부담을 줄이며, Llama 3 모델 실험을 통해 메모리 사용량과 성능 면에서 기존 방식보다 우수함을 입증했습니다.

핵심 포인트

  • 네트워크 구조 수정 없이 임의의 서브 네트워크 최적화가 가능한 알고리즘적 토대 제공
  • Llama 3-8B 모델의 전체 파라미터 미세 조정 시 단 13.72GB의 GPU 메모리만으로 수행 가능
  • 결정론적 설정에서의 이론적 수렴 분석 및 실증적 성능 검증 완료
  • 언어 이해, 수학적 추론, MT-Bench 등 다양한 벤치마크에서 기존 메모리 효율적 베이스라인을 능가하는 성능 달성

본 연구는 동적으로 활성화되는 작업 세트(working set)를 중심으로 전체 파라미터 미세 조정(full-parameter fine-tuning)을 재구성하는 메모리 효율적인 미세 조정 프레임워크인 extsc{ChunkFT}를 제시합니다. extsc{ChunkFT}는 네트워크 구조를 수정하지 않고도 임의의 서브 텐서(sub-tensors)에 대한 그래디언트(gradient) 계산을 가능하게 하여, 표준적인 밀집 그래디언트(dense gradient) 계산을 피하면서 임의의 서브 네트워크를 최적화할 수 있는 알고리즘적 토대를 제공합니다. 우리는 결정론적 설정(deterministic setting)에서 extsc{ChunkFT}의 이론적 수렴 분석(convergence analysis)을 제공합니다. 실증적으로, 우리는 extsc{ChunkFT}를 각각 단일 RTX 4090-24GB GPU와 2$ imes$ H800-80GB GPU를 사용하여 Llama 3-8B 및 Llama 3-70B를 미세 조정하는 데 적용했습니다. 1K 입력 길이를 가진 7B 모델의 전체 파라미터 미세 조정에는 단 13.72GB의 GPU 메모리만 필요합니다. 결과는 메모리 사용량, 실행 시간 및 최적화 품질 측면에서 extsc{ChunkFT}의 효과를 입증합니다. 또한, 언어 이해, 수학적 추론 및 MT-Bench에 대한 다운스트림 평가(downstream evaluations) 결과, extsc{ChunkFT}가 기존의 메모리 효율적인 베이스라인(baselines)들을 일관되게 능가함을 보여줍니다. 특히, extsc{ChunkFT}는 전체 파라미터 미세 조정과 대등하거나 경우에 따라 이를 상회하는 성능을 달성합니다. 우리의 저장소는 https://github.com/misonsky/chunk 에 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0