TuneAhead: 전체 학습이 시작되기 전 미세 조정(Fine-tuning) 성능 예측하기
요약
TUNEAHEAD는 LLM 미세 조정(Fine-tuning)을 시작하기 전, 성능을 사전에 예측할 수 있는 경량 프레임워크입니다. 정적 데이터셋 기술자와 동적 프로브 특징을 결합하여 성능을 추정하며, 불필요한 학습 비용을 줄이는 go/no-go 스크리닝을 지원합니다.
핵심 포인트
- 미세 조정 성능을 사전에 예측하는 경량 프레임워크 TUNEAHEAD 제안
- 정적 데이터셋 기술자와 동적 프로브 특징을 결합한 메타 특징 벡터 활용
- SHAP 기반 기여도 분석을 통해 예측 결과에 대한 해석 가능성 제공
- Qwen2.5-7B-Instruct 실험 결과, 기존 베이스라인 대비 우수한 예측 성능 입증
대규모 언어 모델(LLMs)의 미세 조정(Fine-tuning)은 계산 집약적이며 오류가 발생하기 쉽습니다. 모델 성능은 데이터 품질과 하이퍼파라미터(hyperparameter) 선택에 민감하게 의존하며, 무분별한 실행은 심지어 모델 성능을 저하시킬 수도 있습니다. 이는 실질적인 질문을 던집니다: 전체 학습 실행을 결정하기 전에 미세 조정 성능을 예측할 수 있을까요? 우리는 미세 조정 성능의 사전 예측(pre-hoc prediction)을 위한 경량 프레임워크인 TUNEAHEAD를 제시합니다. TUNEAHEAD는 각 후보 실행을 정적 데이터셋 기술자(static dataset descriptors)와 짧은 표준화된 프로브(probe)로부터 얻은 동적 프로브 특징(dynamic probe features)을 결합한 메타 특징 벡터(meta-feature vector)로 인코딩합니다. 예측기(predictor)는 이러한 특징들을 성능 추정치로 매핑하며, SHAP 기반 기여도(SHAP-based attributions)는 어떤 특정 특징이 예측을 주도하는지 밝혀주는 해석 가능한 진단(interpretable diagnostics)을 제공합니다. Qwen2.5-7B-Instruct에 대한 1,300회 이상의 미세 조정 실행에 걸쳐, TUNEAHEAD는 Early-Stop Extrapolation 및 ProxyLM과 같은 강력한 베이스라인(baselines)보다 일관되게 우수한 성능을 보였습니다. 370회의 홀드아웃 테스트 세트(held-out test set)에서 TUNEAHEAD는 1.47 퍼센트 포인트의 RMSE를 달성했으며, 예측치의 95.1%를 실제 점수의 +3/-3 퍼센트 포인트 이내에 위치시켰습니다. 이러한 정확한 연속적 예측(continuous predictions)은 가장 유망한 실행은 유지하면서 불필요한 전체 미세 조정을 줄일 수 있는 실질적인 go/no-go 스크리닝 정책을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기