LoRA를 넘어서: 가장 인기 있는 파인튜닝 기법을 능가할 수 있을까?

만약 자체 데이터로 오픈 모델을 파인튜닝하고 싶다면, 아마도 '파라미터 효율적 파인튜닝(parameter-efficient fine-tuning)', 줄여서 PEFT에 관심이 있을 것입니다. 이 용어는 모델을 파인튜닝하는 데 필요한 메모리 요구 사항을 크게 줄이는 기술들을 설명합니다. 수십 가지의 이러한 기술들이 있지만, 거의 모든 사람이

초기에 등장하여 상당히 효과적임이 입증된 하나의 매개변수 효율적 파인튜닝 (Parameter-Efficient Fine-Tuning, PEFT) 기술은 “Low Rank Adaptation”, 줄여서 “LoRA”라고 불립니다. 이 기술은 베이스 모델 (Base Model) 위에 소수의 매개변수를 추가하고, 베이스 모델의 가중치 (Weights)를 동결 (Freezing)한 뒤, 그 소수의 매개변수만을 학습시키는 방식으로 작동합니다.

모든 PEFT 기술 중에서 LoRA는 단연코 가장 인기가 많습니다. 다음은 몇 가지 추정치입니다:

정확히 하나의 PEFT 기술을 언급하는 Hugging Face Hub의 모델 카드 (Model Card) 20,834개를 샘플링한 결과, 20,509개가 LoRA를 언급했습니다 (98.4%).
외부 사이트에서도 이미지 생성에 인기 있는 PEFT 기술이 무엇인지 확인했습니다. 10,000개의 체크포인트 (Checkpoint) 샘플을 사용한 결과, 7,111개가 LoRA임을 발견했습니다. 식별된 다른 PEFT 기술로는 LoCon (363개)과 DoRA (11개, 아마도 LoRA의 변형)가 있었습니다. 이는 PEFT 체크포인트의 95.0%가 LoRA임을 의미합니다.
GitHub에서 코드 스니펫(Code Snippet)
from peft import <PEFT CONFIG>
을 검색했을 때 (예시 GH 쿼리), 결과의 71.3%가 LoRA에 관한 것이었습니다. 그 뒤를 잇는 기술은 LoHa (3.7%)와 AdaLoRA (3.5%)였습니다.

이러한 추정치가 완벽하지는 않지만, 그럼에도 불구하고 LoRA가 거의 확실하게 단연코 가장 흔한 PEFT 기술이라는 결론에 도달합니다.

이는 단순히 LoRA가 모든 사람에게 가장 잘 작동하며, 이 사실이 사용 통계에 반영된 것일 수도 있습니다. 하지만 또 다른 가능성도 있습니다. LoRA는 초기에 등장한 인기 있는 PEFT 기술 중 하나였다는 점입니다. 따라서 그 사용량이 자기 강화 (Self-reinforcing) 되었을 수도 있습니다. 즉, LoRA는 가장 높은 가시성을 가지고, 가장 많은 튜토리얼/예제를 보유하고 있으며, 다운스트림 패키지 (Downstream Packages)에서 가장 좋은 지원을 받습니다. 결과적으로 LoRA의 인기가 스스로를 키우는 구조입니다.

이 모든 것은 다음과 같은 질문으로 이어집니다: 우리가 더 나은 기술들을 외면함으로써 성능을 제대로 활용하지 못하고 있는 것은 아닐까? 결국, 자신의 기술이 LoRA를 능가한다고 주장하는 논문을 발표하는 연구자들은 셀 수 없이 많습니다. 이것이 우리가 새로운 기술을 위해 LoRA를 넘어설 필요가 있다는 충분한 증거가 되지 않을까요?

LoRA 이외의 파인튜닝 기술을 조사하는 논문은 수십 편에 달합니다. 단지 PEFT

library, 이 글을 작성하는 시점에 이미 40개 이상의 서로 다른 PEFT 기술이 존재하며 (PEFT 기술의 변형까지 포함하면 훨씬 더 많습니다), 거의 모든 연구에서 자신들의 기술이 벤치마크(benchmark)에 따라 LoRA를 능가한다고 주장하는 것을 볼 수 있습니다.

이러한 주장들의 문제는 연구자들이 기존 벤치마크를 뛰어넘는 결과를 내놓아야 한다는 압박을 받고 있다는 점입니다. 악의가 없더라도, 예를 들어 연구자가 제안한 기술에 비해 대안적인 기술들을 튜닝(tuning)하는 데 더 적은 시간을 할애함으로써 결과에 편향(bias)이 생길 수 있습니다. 일례로, 한 연구에서는 학습률(learning rate)을 조정함으로써 LoRA가 소위 더 우수하다고 여겨지는 PEFT 기술들과 대등한 성능을 낼 수 있음을 발견했습니다 (https://arxiv.org/abs/2602.04998).

또 다른 복잡한 문제는 각 논문마다 비교 대상으로 삼는 PEFT 기술의 집합이 다르고, 실행하는 벤치마크의 집합도 다르다는 점입니다. 설령 동일한 기술을 동일한 벤치마크에서 비교하더라도, 코드가 공개되지 않았거나 직접 실행하기 어려운 경우가 많아 결과를 재현(reproduce)하기가 어렵습니다.

종합적으로 볼 때, 논문의 결과만 확인해서는 자신에게 가장 잘 맞는 PEFT 기술이 무엇인지 파악하기 어렵습니다. 따라서 단순히 기본값인 LoRA를 선택하고 싶은 유혹을 느낄 수도 있습니다.

Hugging Face에서는 사용자들이 어떤 PEFT 기술을 사용할지 정보에 기반한 결정을 내릴 수 있도록 도울 방법을 고민했습니다. PEFT library를 통해, 우리는 이미 많은 PEFT 기술을 구현하고 동일한 API로 제공하는 패키지를 제공하고 있습니다. 다음 단계는 앞서 논의된 문제에 대해 더 명확한 통찰을 줄 수 있는 벤치마크를 제공하는 것입니다.

우리는 이미 수학 데이터셋에서 LLM의 파인튜닝(fine-tuning)을 확인하는 벤치마크를 한동안 운영해 왔습니다. 이 벤치마크는 LLM을 가져와서, 지시어 파인튜닝(instruction fine-tuning)이 되지 않은 베이스 모델(base model)을 사용하여 수학 문제에 대한 결과를 도출하기 위한 사고 사슬(chain-of-thought) 추론 방식으로 파인튜닝을 진행합니다. 따라서 이 벤치마크는 모델이 수학적 추론을 수행하는 법을 배울 수 있는지, 그리고 생성된 출력을 기대되는 형식에 맞게 조정할 수 있는지를 확인합니다.

다른 모달리티 (modality)에 대한 연구 결과를 확장하기 위해, 이미지 생성 벤치마크 (benchmark)도 추가했습니다. 이 벤치마크는 모델이 새로운 개념인 '고양이 인형 (cat plushy)'을 학습하도록 파인튜닝 (fine-tuning)될 수 있는지, 그리고 기존 개념을 잊어버리지 않으면서 새로운 맥락에서 이를 생성할 수 있는지를 테스트합니다.

|
왼쪽: MetaMathQA 데이터셋의 질문 및 답변 샘플. 오른쪽: 고양이 인형 데이터셋의 이미지 샘플. |

모든 PEFT 기법은 정확히 동일한 조건, 즉 동일한 베이스 모델 (base model), 동일한 데이터셋, 동일한 학습 및 평가 코드, 동일한 하드웨어 환경에서 평가됩니다. 사용자마다 요구 사항이 다르기 때문에, 저희는 단순히 테스트 성능만을 추적하지 않습니다. VRAM 사용량 외에도 망각/드리프트 (forgetting/drift), 실행 시간 (runtime), 체크포인트 크기 (checkpoint size)와 같은 지표들을 추적합니다. 결과는 소비자용 하드웨어에서 실행되도록 설계되었으며, 새로운 실험을 추가하려면 새로운 PEFT 설정을 추가하고 스크립트를 실행하기만 하면 됩니다.

저희는 모든 PEFT 기법을 동등한 입장에서 비교하며 특정 기법에 이해관계가 없으므로, 이 벤치마크가 서로 다른 PEFT 기법들이 얼마나 잘 작동하는지에 대한 객관적인 그림을 그려줄 수 있다고 믿습니다. 만약 여러분만의 데이터셋을 가지고 있다면, 유사한 접근 방식을 취하고 PEFT 라이브러리를 활용하여 여러 PEFT 기법을 평가할 수 있습니다.

벤치마크 실행을 마친 후, LoRA가 잘 작동하기는 하지만 다른 PEFT 방법들이 하나 또는 여러 축에서 LoRA를 능가할 수 있으며, 따라서 고려 대상이 되어야 한다는 것을 발견했습니다. 아래 이미지에서 LoRA와 다른 5가지 PEFT 기법의 성능을 비교해 보세요.

|
벤치마크의 일부 결과. 테스트 성능과 메모리 사용량 측면에서 LoRA가 반드시 최선의 선택은 아닙니다. 왼쪽: MetaMathQA 벤치마크; 오른쪽: 이미지 생성 벤치마크. 가장 최신의 결과는 이 Space를 참조하세요. |

위의 결과를 해석하는 한 가지 방법은 트레이드오프 (tradeoffs) 관점에서 생각하는 것입니다. 예를 들어, 모델이 테스트 세트에서 얼마나 잘 수행되는가 대 모델을 훈련하는 데 얼마나 많은 메모리가 필요한가와 같은 것입니다. 만약 어떤 PEFT (Parameter-Efficient Fine-Tuning, 매개변수 효율적 미세 조정) 기법이 다른 어떤 기법에 의해서도 이 두 가지 지표 모두에서 동시에 능가될 수 없다면, 해당 기법은 파레토 프런티어 (Pareto Frontier) 상에 있다고 합니다. 즉, 더 높은 테스트 정확도를 원한다면 더 많은 메모리가 필요하고, 더 높은 메모리 효율성을 원한다면 정확도를 포기해야 한다는 의미입니다.

LLM Math 데이터셋 벤치마크 결과를 더 자세히 살펴보겠습니다. 테스트 정확도 대 메모리 측면에서, 우리는 LoRA가 실제로 파레토 프런티어 상에 있다는 것을 발견했습니다. LoRA는 53.2%의 테스트 정확도를 달성하며 피크 시 22.6 GB의 VRAM을 필요로 합니다. 하지만 파레토 프런티어에는 다른 PEFT 기법들도 존재합니다. 예를 들어, BEFT는 32.9%의 테스트 정확도를 달성하면서 최대 20.2 GB의 메모리만을 필요로 합니다. 반대편에는 54.9%의 테스트 정확도를 달성하지만 25.6 GB의 메모리가 필요한 Lily가 있습니다. 무엇이 더 중요한지에 따라, 여러분은 LoRA가 여러분에게 최선의 트레이드오프를 제공하지 않는다고 결론 내릴 수도 있습니다.

[IMG:1] |
meta-llama/Llama-3.2-3B를 파인튜닝하고 GSM8K에서 평가했을 때의 테스트 정확도 대 메모리 사용량 트레이드오프. LoRA도 성능이 좋지만 다른 PEFT 기법들도 마찬가지입니다. |

또한 LoRA가 이 작업에서 좋은 성능을 보이지만, 우리가 논의하고 있는 것이 일반적인 (vanilla) LoRA가 아니라는 점도 주목할 가치가 있습니다. 한쪽에는 랭크 안정화 초기화 (rank stabilized initialization)를 적용한 LoRA가 있는데, 이는 기본 초기화와 다르게 LoRA의 기여도를 스케일링하는 기술로 매우 좋은 테스트 정확도(53.2%)를 제공합니다. 다른 한쪽에는 LoRA-FA가 있는데, 이는 LoRA의 일부 가중치를 동결하는 LoRA 전용 옵티마이저 (optimizer)를 사용하여 메모리 효율성(20.2 GB)을 높인 방식입니다. 일반적인 LoRA는 22.5 GB 메모리에서 48.1%의 정확도만을 달성하므로, 대안들을 위해 사용을 피해야 합니다.

다음으로 이미지 생성 벤치마크 (image generation benchmark)를 살펴보겠습니다. Hugging Face Space에서 “Select Task” 드롭다운 메뉴의 “image-gen”을 선택하면 결과를 볼 수 있습니다. 이 작업의 목표는 새로운 개념, 즉 고양이 인형 (cat plushy)을 학습하고 이를 새로운 프롬프트 (prompt)로 일반화하는 것입니다.

|
FLUX.2-klein-base-4B에 LoRA 파인튜닝 (fine-tuned)을 적용하여 생성된 고양이 인형 이미지. |

이 작업의 주요 지표는 “dino 유사도 (dino similarity)”입니다. 이는 생성된 이미지가 홀드아웃 테스트 데이터셋 (holdout test dataset)의 사진과 얼마나 유사한지를 측정하며, 값이 높을수록 좋습니다. 언제나 그렇듯, 메모리 사용량 (memory usage)도 주의 깊게 살펴봐야 합니다. 이 두 지표의 파레토 프런티어 (Pareto Frontier)를 도식화했을 때, LoRA는 해당 프런티어 아래에 위치함을 알 수 있습니다. 구체적인 수치를 살펴보겠습니다. LoRA는 0.697의 유사도 점수를 달성하는 반면, OFT는 0.708을 달성합니다. 메모리 측면에서 LoRA는 9.97 GB가 필요하고, OFT는 9.01 GB가 필요합니다. 따라서 OFT는 이 지표들에서 LoRA를 엄격하게 압도 (strictly dominates)합니다.

|
FLUX.2-klein-base-4B를 파인튜닝하고 테스트 세트에서 평가할 때의 테스트 정확도 (test accuracy) 대 메모리 사용량 (memory usage) 트레이드오프 (tradeoff). OFT와 같은 다른 PEFT 기법들은 테스트 점수와 낮은 메모리 사용량 측면에서 LoRA를 능가합니다. |

물론, 무작위성 (randomness)으로 인해 지표에 미세한 변동이 생길 수 있으므로 파레토 프런티어에 근접한 다른 PEFT 방법들도 확인해야 합니다. 또한 다른 지표들도 탐색해야 합니다. 실행 성능 (runtime performance)이 중요한가요, 아니면 체크포인트 (checkpoint)의 크기가 중요한가요? 드롭다운에서 관련 지표를 선택하면 그림이 상당히 달라질 수 있습니다. 이미지 생성 벤치마크의 경우, 파인튜닝된 모델의 능력을 체감하기 위해 생성된 샘플 이미지들을 직접 검토해 보십시오.

반론: 하지만 벤치마크가 특정 방법을 다른 방법보다 유리하게 만들 수 있지 않나요!

PEFT에 제기될 수 있는 한 가지 비판은...

벤치마크(benchmarks)에 대한 또 다른 비판은 하이퍼파라미터(hyper-parameters)의 선택이 특정 기술을 다른 기술보다 유리하게 만들 수 있다는 점입니다. 이는 사실이며, 이토록 많은 기술을 대상으로 철저하고 공정한 하이퍼파라미터 스윕(hyper-parameter sweep)을 수행하는 것은 어렵습니다. 하지만 누구나 자신만의 실험을 PEFT에 기여하는 것은 매우 쉽습니다.

: 만약 특정 PEFT 기술이 다른 하이퍼파라미터를 선택함으로써 개선될 수 있다고 믿는다면, PR(Pull Request)을 생성해 주세요! 이를 수행하는 방법에 대한 안내를 추가해 두었습니다. 비슷한 맥락에서, 완전히 새로운 벤치마크를 기여하고 싶다면 저희에게 연락하여 아이디어를 논의해 주세요.

벤치마크의 또 다른 문제는 특정 PEFT 기술의 역량을 완전히 반영하지 못할 수도 있다는 점입니다. 저희는 다양한 차원에서 기술들을 비교하고, 이러한 트레이드오프(tradeoffs)에 따라 최적의 기술을 발견할 수 있도록 지원합니다. 하지만 이런 방식으로는 모든 측면을 포착하는 것이 불가능합니다. 예를 들어, Cartridges (https://huggingface.co/docs/peft/package_reference/cartridges)라고 불리는 한 PEFT 기술은 긴 프롬프트(prompts)를 압축하기 위해 개발되었으나, 이는 벤치마크에서 측정되지 않습니다. 다른 요인들도 선택에 영향을 미칠 수 있습니다. 예를 들어:

PEFT 기술에 따라 특정 레이어(layer) 유형만 수정할 수 있습니다.
모든 PEFT 기술이 양자화된 베이스 모델(quantized base models)을 지원하는 것은 아닙니다 (하지만 저희는 PEFT에서 지원 범위를 적극적으로 확장하고 있습니다.

LoRA를 넘어서: 가장 인기 있는 파인튜닝 기법을 능가할 수 있을까?

요약

핵심 포인트

댓글