r/LocalLLaMA분석2026. 06. 29. 20:50

로딩 시 성능 저하를 최소화하면서 트랜스포머 블록(Transformer blocks) 전체를 건너뛸 수 있는 방법

요약

llama.cpp 포크를 통해 런타임 시 특정 트랜스포머 블록을 건너뛰어 모델 로딩 성능을 최적화하는 방법을 소개합니다. 양자화와 병행하여 하드웨어 제약을 극복할 수 있으며, 효율적인 블록 선택 메커니즘이 핵심입니다.

핵심 포인트

llama.cpp에 --skip-layers 플래그를 구현하여 런타임 레이어 건너뛰기 지원
모델 인스턴스화 단계에서 지정된 블록을 제외하여 메모리 및 로딩 성능 최적화
양자화(Quantization) 기술과 함께 사용하여 하드웨어 효율성 극대화 가능
성능 유지를 위해 최적의 레이어를 선택하는 셀렉터 메커니즘의 중요성 강조

이점은 평소라면 하드웨어에 들어가지 않을 모델을 맞출 수 있게 해주는 또 다른 트릭이라는 점입니다. 현재 사람들은 양자화 (Quantization)에 의존하고 있으며, 이것은 그 목적을 위해 사용될 수 있는 또 다른 도구입니다 (그리고 이 둘은 함께 사용될 수도 있습니다).

최근의 (매우 멋진) 논문들에 따라, 저는 이를 llama.cpp 포크(fork)에 --skip-layers 플래그로 구현했습니다. 따라서 사용자가 건너뛰라고 지정한 블록들을 아예 인스턴스화(Instantiate)하지 않습니다. 학습 시점의 가지치기 (Bake-time pruning)는 이미 존재합니다 (--prune-layers, mergekit passthrough 등). 이것은 단지 동일한 아이디어의 런타임 (Runtime) 버전일 뿐입니다.

여기서 한 가지 중요한 점은 어떤 블록을 건너뛰느냐에 따라 결과가 수십 배(orders of magnitude) 차이 날 수 있다는 것이며, 그래서 저는 선택 메커니즘(Selector mechanism)과 함께 배포해야 했습니다.

결과, 수치, 그리고 실패 사례들은 기술 문서(Writeup)에 나와 있습니다.

기술 문서 (Writeup): https://open.substack.com/pub/itayinbarr/p/you-can-skip-llm-layers-at-runtime
포크 (Fork): https://github.com/itayinbarr/llama.cpp

전반적인 의견을 들려주시면 감사하겠습니다!

AI 자동 생성 콘텐츠

원문 바로가기

로딩 시 성능 저하를 최소화하면서 트랜스포머 블록(Transformer blocks) 전체를 건너뛸 수 있는 방법

요약

핵심 포인트

댓글