arXiv논문2026. 06. 30. 12:18

가우시안 프로세스를 통한 지시어 튜닝(Instruction Tuning)용 온라인 데이터 선택

요약

LLM의 지시어 튜닝 시 데이터 품질을 극대화하기 위해 가우시안 프로세스를 활용한 GAIA 프레임워크를 제안합니다. 기존의 배치 제약적 방식에서 벗어나 의미 공간 전반의 효용을 모델링하여 최적의 데이터를 동적으로 선택합니다.

핵심 포인트

가우시안 프로세스를 이용한 전역적 데이터 가치 평가 프레임워크 GAIA 제안
의미 공간 내 연속적인 효용 매니폴드 모델링을 통한 데이터 선택 최적화
Hedge 프레임워크를 활용하여 비정상적 품질 점수 환경에서도 강건한 성능 보장
기존 SOTA 베이스라인을 능가하는 효율적이고 확장 가능한 지시어 튜닝 솔루션 입증

대규모 언어 모델 (LLM)의 사전 학습 (pre-training) 및 미세 조정 (fine-tuning)의 초점이 데이터 양에서 데이터 품질로 이동함에 따라, 양질의 데이터 선택이 중요한 연구 주제로 부상했습니다. 기존의 LLM 학습을 위한 온라인 데이터 선택 방법들은 일반적으로 "배치 제약적 (batch-constrained)"이며, 최적화를 무작위 배치 내의 국소적 효용 (local utility)으로 제한합니다. 이를 극복하기 위해, 우리는 데이터 가치 평가를 전역적 추정 과정으로 공식화하는 프레임워크인 GAIA (Global Adaptive Instruction tuning via GAussian processes)를 제안합니다. GAIA는 가우시안 프로세스 (Gaussian Process) 회귀를 사용하여 의미 공간 (semantic space) 전반에 걸친 연속적인 효용 매니폴드 (utility manifolds)를 모델링하며, 적응형 전략 융합 메커니즘을 활용하여 효용이 높은 샘플에 동적으로 우선순위를 부여합니다. 전략-사후 확률 (strategy-posterior) 업데이트를 최적의 전문가를 추적하기 위한 고전적인 fixed-share Hedge 프레임워크의 사례로 구성함으로써, 우리는 학습 중 비정상적 (non-stationary) 품질 점수 하에서의 GAIA의 강건성 (robustness)을 특징짓는 동적 후회 (dynamic-regret) 보장을 상속받습니다. 세 가지 데이터셋에 대한 실증적 평가 결과, GAIA는 \\\\\greats와 같은 최첨단 (state-of-the-art) 베이스라인을 크게 능가하며, 효율적인 지시어 튜닝 (instruction tuning)을 위한 확장 가능하고 강건한 솔루션으로서 우리의 방법을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가우시안 프로세스를 통한 지시어 튜닝(Instruction Tuning)용 온라인 데이터 선택

요약

핵심 포인트

댓글