arXiv논문2026. 06. 17. 11:29

TuneAhead: 전체 학습이 시작되기 전 미세 조정(Fine-tuning) 성능 예측하기

요약

TUNEAHEAD는 LLM 미세 조정(Fine-tuning)을 시작하기 전, 성능을 사전에 예측할 수 있는 경량 프레임워크입니다. 정적 데이터셋 기술자와 동적 프로브 특징을 결합하여 성능을 추정하며, 불필요한 학습 비용을 줄이는 go/no-go 스크리닝을 지원합니다.

핵심 포인트

미세 조정 성능을 사전에 예측하는 경량 프레임워크 TUNEAHEAD 제안
정적 데이터셋 기술자와 동적 프로브 특징을 결합한 메타 특징 벡터 활용
SHAP 기반 기여도 분석을 통해 예측 결과에 대한 해석 가능성 제공
Qwen2.5-7B-Instruct 실험 결과, 기존 베이스라인 대비 우수한 예측 성능 입증

대규모 언어 모델(LLMs)의 미세 조정(Fine-tuning)은 계산 집약적이며 오류가 발생하기 쉽습니다. 모델 성능은 데이터 품질과 하이퍼파라미터(hyperparameter) 선택에 민감하게 의존하며, 무분별한 실행은 심지어 모델 성능을 저하시킬 수도 있습니다. 이는 실질적인 질문을 던집니다: 전체 학습 실행을 결정하기 전에 미세 조정 성능을 예측할 수 있을까요? 우리는 미세 조정 성능의 사전 예측(pre-hoc prediction)을 위한 경량 프레임워크인 TUNEAHEAD를 제시합니다. TUNEAHEAD는 각 후보 실행을 정적 데이터셋 기술자(static dataset descriptors)와 짧은 표준화된 프로브(probe)로부터 얻은 동적 프로브 특징(dynamic probe features)을 결합한 메타 특징 벡터(meta-feature vector)로 인코딩합니다. 예측기(predictor)는 이러한 특징들을 성능 추정치로 매핑하며, SHAP 기반 기여도(SHAP-based attributions)는 어떤 특정 특징이 예측을 주도하는지 밝혀주는 해석 가능한 진단(interpretable diagnostics)을 제공합니다. Qwen2.5-7B-Instruct에 대한 1,300회 이상의 미세 조정 실행에 걸쳐, TUNEAHEAD는 Early-Stop Extrapolation 및 ProxyLM과 같은 강력한 베이스라인(baselines)보다 일관되게 우수한 성능을 보였습니다. 370회의 홀드아웃 테스트 세트(held-out test set)에서 TUNEAHEAD는 1.47 퍼센트 포인트의 RMSE를 달성했으며, 예측치의 95.1%를 실제 점수의 +3/-3 퍼센트 포인트 이내에 위치시켰습니다. 이러한 정확한 연속적 예측(continuous predictions)은 가장 유망한 실행은 유지하면서 불필요한 전체 미세 조정을 줄일 수 있는 실질적인 go/no-go 스크리닝 정책을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TuneAhead: 전체 학습이 시작되기 전 미세 조정(Fine-tuning) 성능 예측하기

요약

핵심 포인트

댓글